大數(shù)據(jù)工具變遷簡史:人的需求,略大于算法的疆域 |數(shù)據(jù)驅(qū)動(dòng)四重奏之一
(圖片來源:攝圖網(wǎng))
作者|吳文超 來源|晨山資本(ID:chenshancapital)
近年來,人們頻頻「遭遇」各類大數(shù)據(jù)工具,體驗(yàn)到許多前所未有的變化。不管是驚喜還是驚嚇,數(shù)據(jù)工具都在加速整個(gè)社會(huì)的數(shù)字化轉(zhuǎn)型,面對這樣的趨勢,加深我們對數(shù)據(jù)工具的認(rèn)識和理解將越來越重要。
本文對大數(shù)據(jù)工具的變遷作了階段性總結(jié),并對未來數(shù)據(jù)產(chǎn)品的新方向進(jìn)行探討。通過當(dāng)下可識別的坐標(biāo),銘刻十年前的歷史引爆點(diǎn),呈現(xiàn)數(shù)據(jù)生態(tài)鏈的環(huán)環(huán)相扣,也看見大數(shù)據(jù)工具不只是一套封閉的技術(shù)體系,人與數(shù)據(jù)產(chǎn)品互緣同構(gòu),它的一頭接入算法的革新脈絡(luò),另一頭與人的生產(chǎn)生活有機(jī)相連,持續(xù)回應(yīng)更新的現(xiàn)實(shí)、觀念和技術(shù),并不斷衍生出新的形態(tài)支撐各個(gè)行業(yè)的運(yùn)轉(zhuǎn)。
不過,無論解題工具(數(shù)據(jù)工具)多好,解題思路(算法)多棒,最終我們還是要一遍遍回到最原始的價(jià)值拷問——我們解題是為了什么?我們還將探討工具大眾化、跨云互通、架構(gòu)融合和數(shù)據(jù)安全等數(shù)據(jù)產(chǎn)品的新方向。
這是晨山「數(shù)據(jù)驅(qū)動(dòng)四重奏」系列的首篇文章。我們看到數(shù)據(jù)本身是世界性(worlding)的存在,就像世界本身是一個(gè)開放的、涌現(xiàn)的、迭代的過程,數(shù)字化的進(jìn)程也是如此,兩者互為表里。
接下來,從數(shù)據(jù)工具變遷簡史,到工業(yè)數(shù)字化未來十年的發(fā)展動(dòng)向,到新近備受關(guān)注的碳管理領(lǐng)域,再到以應(yīng)用為核心的云計(jì)算2.0,我們希望以管窺豹,從「數(shù)據(jù)驅(qū)動(dòng)」的基礎(chǔ)設(shè)施到重點(diǎn)場景,啟發(fā)當(dāng)下數(shù)據(jù)創(chuàng)新和數(shù)字化發(fā)展的思考,也期待更多朋友一起交流!
自1946年計(jì)算機(jī)發(fā)明以來,我們經(jīng)歷了軟件、互聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)到現(xiàn)在萬物可聯(lián)的時(shí)代。計(jì)算機(jī)也從最初的輔助「計(jì)算」功能,到現(xiàn)在成為我們承載信息的重要「伴侶」。個(gè)人的社交、購物、旅行等生活內(nèi)容,企業(yè)的設(shè)計(jì)、生產(chǎn)、經(jīng)營和管理都以數(shù)據(jù)的形式被記錄著。
這些變化,在近十余年,尤其是移動(dòng)互聯(lián)網(wǎng)(PC時(shí)代計(jì)算機(jī)還只是觸達(dá)了少部分人)讓普通人的信息被計(jì)算機(jī)記錄開始,令大家感受尤其明顯。這背后同時(shí)也是一段數(shù)據(jù)工具的變遷史。
01.
歷史引爆點(diǎn)與萌芽期
在互聯(lián)網(wǎng)出現(xiàn)之前,軟件還主要服務(wù)于企業(yè),過程中誕生了如Oracle、SAP、IBM等為企業(yè)提供信息化的軟件公司。在漫長的時(shí)期中,軟件承載著數(shù)據(jù)記錄、計(jì)算和管理能力,數(shù)據(jù)庫也以O(shè)racle、IBM等公司的產(chǎn)品服務(wù)于數(shù)據(jù)管理需求為主。
在后期,隨著企業(yè)經(jīng)營決策復(fù)雜性的提升,利用數(shù)據(jù)分析進(jìn)行決策的需求逐漸被提出,出現(xiàn)了Teradata等數(shù)據(jù)倉庫產(chǎn)品,Oracle、IBM等傳統(tǒng)數(shù)據(jù)庫企業(yè)也都紛紛推出自己的解決方案。這幾十年的時(shí)間里,大家更多講的是軟件而非數(shù)據(jù)。甚至到PC互聯(lián)網(wǎng)時(shí)期,真正接觸和使用計(jì)算機(jī)的人依然有限。
2010年左右,智能手機(jī)的出現(xiàn),移動(dòng)互聯(lián)網(wǎng)的爆發(fā),實(shí)現(xiàn)「人聯(lián)」,才真正開啟了數(shù)據(jù)時(shí)代。也是在這前后,數(shù)據(jù)量的爆發(fā)式增長帶來了數(shù)據(jù)工具的爆發(fā)。
▲ 2010年左右是數(shù)據(jù)工具爆發(fā)的奇點(diǎn)
2010年左右數(shù)據(jù)工具大爆發(fā),數(shù)據(jù)平臺(tái)架構(gòu)百花齊放。
2010年之前傳統(tǒng)數(shù)倉還是以處理信息化系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù)為主。2010年,為了應(yīng)對移動(dòng)互聯(lián)網(wǎng)中出現(xiàn)的大量用戶行為日志等非結(jié)構(gòu)化數(shù)據(jù),以Hadoop為代表的大數(shù)據(jù)平臺(tái)在此背景下誕生,揭開了大數(shù)據(jù)工具的序幕。并于隨后幾年出現(xiàn)了一大批圍繞著Hadoop生態(tài)的大數(shù)據(jù)產(chǎn)品。
Hadoop批量處理能力強(qiáng),但實(shí)時(shí)性差,難以滿足應(yīng)用系統(tǒng)對用戶提供更加實(shí)時(shí)服務(wù)的需求,此時(shí)Spark、Flink等流式處理平臺(tái)橫空出世。批流數(shù)據(jù)并行的Lambda、Kappa等架構(gòu)逐漸成為主流。
隨著Hadoop的非實(shí)時(shí)性缺陷越來越讓人難以忍受、硬件成本的持續(xù)下降和云計(jì)算的滲透,MPP架構(gòu)的數(shù)倉再次回到人們的視野,尤其是Snowflake以云數(shù)倉的方式刷新了大家對傳統(tǒng)數(shù)倉的認(rèn)知,國內(nèi)新的數(shù)倉解決方案也如雨后春筍般出現(xiàn)。
然而,數(shù)據(jù)平臺(tái)架構(gòu)演進(jìn)的步伐并沒有因此停止,數(shù)據(jù)湖、湖倉一體等架構(gòu)在最近兩年又被大家提出和應(yīng)用。
事實(shí)上,百花齊放的數(shù)據(jù)平臺(tái)架構(gòu)背后是數(shù)據(jù)和應(yīng)用復(fù)雜度的提升,優(yōu)秀的產(chǎn)品永遠(yuǎn)致力于把功能做到極致,突破自身產(chǎn)品能力的邊界;而優(yōu)秀的用戶永遠(yuǎn)在尋找適合自己的架構(gòu)設(shè)計(jì)和產(chǎn)品組合,用戶和產(chǎn)品就這樣并行推動(dòng)數(shù)據(jù)工具的發(fā)展。在這過程中也誕生了大量優(yōu)秀的數(shù)據(jù)產(chǎn)品企業(yè),如Splunk、Databricks、Snowflake、Clickhouse等。
▲ 數(shù)據(jù)平臺(tái)架構(gòu)的變遷
數(shù)據(jù)工具是一個(gè)生態(tài)鏈。
以上更多是從橫向看整個(gè)數(shù)據(jù)架構(gòu)的變遷,但縱向來看,任何一個(gè)數(shù)據(jù)架構(gòu)都并不是孤立的,而是需要一整套數(shù)據(jù)處理的工具鏈才能完成數(shù)據(jù)處理的閉環(huán),包括采集傳輸、查詢處理、數(shù)據(jù)轉(zhuǎn)換和分析、輸出等多個(gè)環(huán)節(jié)。雖然數(shù)據(jù)流的順序可能不完全一樣,但模塊基本一致。生態(tài)產(chǎn)品的誕生也和前面架構(gòu)設(shè)計(jì)的多樣性、應(yīng)用的多樣性息息相關(guān)。
我們看到另外一個(gè)比較主流的創(chuàng)業(yè)方向便是兼容于各種數(shù)據(jù)工具和應(yīng)用系統(tǒng)的生態(tài)工具,如做數(shù)據(jù)采集的Fivetran、管道傳輸?shù)腒afka和建模轉(zhuǎn)換引擎dbt。
▲ 數(shù)據(jù)處理的典型環(huán)節(jié) 資料來源:a16z.com
數(shù)據(jù)產(chǎn)品眾多,架構(gòu)選型成為關(guān)鍵。
經(jīng)過十余年的發(fā)展,受益于開源、國內(nèi)外互聯(lián)網(wǎng)大企業(yè)的引領(lǐng)和創(chuàng)業(yè)公司不斷創(chuàng)新,數(shù)據(jù)工具也是層出不窮,每一個(gè)數(shù)據(jù)處理環(huán)節(jié)都有大量可選工具。
工具沒有絕對優(yōu)劣,而用工具的人至關(guān)重要,如何搭建適合業(yè)務(wù)需求的工具組合才是用戶需要重點(diǎn)關(guān)心的問題。
▲ 數(shù)據(jù)處理的各個(gè)環(huán)節(jié)工具眾多
02.
需求和算法驅(qū)動(dòng)數(shù)據(jù)產(chǎn)品滾滾向前
現(xiàn)在我們擁有眾多大數(shù)據(jù)的工具,但工具背后本身誕生的背景是什么,為什么會(huì)有如此多的工具?
這最終還是要回歸到方法和價(jià)值上:我們處理的思路有什么革新?為什么要處理各種各樣的數(shù)據(jù),以及處理這些數(shù)據(jù)能帶來多大的價(jià)值?
解題思路,算法驅(qū)動(dòng)。
我們首先來看看人們處理數(shù)據(jù)的思路有多大的變化?!?strong>思路」在計(jì)算機(jī)領(lǐng)域換個(gè)詞就叫「算法」,而「算法工程師」這個(gè)崗位大體是伴隨著數(shù)據(jù)科學(xué)和人工智能誕生的。
在軟件時(shí)代,算法更多停留在傳統(tǒng)統(tǒng)計(jì)方法的應(yīng)用:排序、求和、求統(tǒng)計(jì)值等,其最典型的應(yīng)用在BI產(chǎn)品中,用于輕量級企業(yè)內(nèi)部數(shù)據(jù)洞察。
在互聯(lián)網(wǎng)時(shí)代,信息量的爆炸給統(tǒng)計(jì)機(jī)器學(xué)習(xí)帶來新的機(jī)會(huì),包括經(jīng)典的邏輯回歸、SVM、KNN等分類、聚類算法在搜索、推薦引擎中被大量使用。
同樣是在2010年,AlexNet在ImageNet中圖像識別的優(yōu)異表現(xiàn)揭開了深度神經(jīng)網(wǎng)絡(luò)的序幕,大量的神經(jīng)網(wǎng)絡(luò)模型、算法被提出,不僅僅應(yīng)用在圖像領(lǐng)域,同樣應(yīng)用在語音、文本等非結(jié)構(gòu)化數(shù)據(jù)中。而深度神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)的依賴達(dá)到了前所未有的高峰,數(shù)據(jù)甚至成為了AI的第一生產(chǎn)要素,這又對數(shù)據(jù)處理工具提出了更高的要求。
近年來,AI逐漸走入大模型時(shí)代,擁有高算力、大數(shù)據(jù)量的互聯(lián)網(wǎng)企業(yè)訓(xùn)練了超大規(guī)模參數(shù)的通用AI模型,尤其是在文本和內(nèi)容生成領(lǐng)域。這再一次推動(dòng)了數(shù)據(jù)使用的新模式,對大模型使用者的數(shù)據(jù)要求從大而全走向細(xì)而精。
▲ 算法發(fā)展史
無論你的解題工具(數(shù)據(jù)工具)多好,解題思路(算法)多棒,最終我們都要回答一個(gè)最原始的價(jià)值問題:我們解題是為了什么?有什么作用?
解題目的,價(jià)值驅(qū)動(dòng)。
在軟件時(shí)代,數(shù)據(jù)聚合的目的更多是為了企業(yè)內(nèi)部進(jìn)行經(jīng)營決策,所以BI是數(shù)據(jù)最早的出口形態(tài)。到了移動(dòng)互聯(lián)網(wǎng)時(shí)代,各種數(shù)據(jù)被互聯(lián)網(wǎng)企業(yè)收集,進(jìn)行用戶洞察分析,提升搜索引擎、電商甚至信息流圖文、視頻的推薦準(zhǔn)確率,提高用戶點(diǎn)擊率,數(shù)據(jù)價(jià)值嶄露頭角。
隨著機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的發(fā)展,人們發(fā)現(xiàn)數(shù)據(jù)可以被利用的思路和方法被進(jìn)一步打開,更多非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和最原始的結(jié)構(gòu)化數(shù)據(jù)被收集,開始用于廣泛的商業(yè)場景:
1. 產(chǎn)品的研發(fā)迭代
互聯(lián)網(wǎng)企業(yè)是利用用戶數(shù)據(jù)迭代產(chǎn)品的最大受益者。數(shù)據(jù)輔助產(chǎn)品設(shè)計(jì)不僅僅可以在互聯(lián)網(wǎng)、軟件開發(fā)領(lǐng)域,在其他行業(yè)領(lǐng)域也可以被應(yīng)用——服裝設(shè)計(jì)中通過收集用戶購買行為來進(jìn)行款式設(shè)計(jì),餐飲口味選品可以通過收集用戶點(diǎn)評數(shù)據(jù)來輔助決策。
2. 數(shù)據(jù)助力營銷
其實(shí)最早的BI很重要的一個(gè)應(yīng)用場景就是被用于營銷洞察,但彼時(shí)缺乏足夠的外部數(shù)據(jù)支撐。隨著近年來電商的崛起和線上購物滲透率的快速提升,企業(yè)對外部消費(fèi)者的洞察也越來越精確,精準(zhǔn)的數(shù)據(jù)營銷也成為數(shù)據(jù)應(yīng)用的典型場景。
3. 數(shù)據(jù)助力企業(yè)管理
傳統(tǒng)的企業(yè)管理更多關(guān)注流程管控,缺乏精細(xì)化的資源管理和決策依據(jù)。在數(shù)據(jù)時(shí)代,員工的表現(xiàn)、企業(yè)的生產(chǎn)、銷售都進(jìn)一步被數(shù)據(jù)化,企業(yè)管理者擁有更多的維度洞察整個(gè)企業(yè)的人事和過程的管理。
4. 數(shù)據(jù)助力人機(jī)協(xié)作
目前我們看到的數(shù)據(jù)應(yīng)用大部分還是圍繞著「人」的數(shù)據(jù)。隨著「物聯(lián)」越來越普及,機(jī)器和設(shè)備的數(shù)據(jù)也被大幅收集,人們可以更加了解機(jī)器,人機(jī)協(xié)作也變得越來越高效和精準(zhǔn)。
▲ 數(shù)據(jù)應(yīng)用發(fā)展史
目前數(shù)據(jù)在很多行業(yè)還處于滲透期,大家更多關(guān)注營銷,但并沒有更深入地推進(jìn)到產(chǎn)品研發(fā)、企業(yè)經(jīng)營管理和人機(jī)協(xié)作領(lǐng)域。
隨著數(shù)據(jù)在金融、電信、工業(yè)、政務(wù)、醫(yī)療教育甚至農(nóng)業(yè)等行業(yè)應(yīng)用,個(gè)人和企業(yè)將被深度數(shù)據(jù)化,行為和決策受數(shù)據(jù)驅(qū)動(dòng),執(zhí)行過程被數(shù)據(jù)記錄,勞動(dòng)成果被數(shù)據(jù)化衡量,甚至整個(gè)社會(huì)的運(yùn)轉(zhuǎn)都是由數(shù)據(jù)在背后驅(qū)動(dòng),這將對數(shù)據(jù)工具提出新的需求。
03.
數(shù)據(jù)產(chǎn)品發(fā)展方向:大眾化、跨云、架構(gòu)融合和安全
數(shù)據(jù)產(chǎn)品的誕生從源頭來看是需求的驅(qū)動(dòng),從路徑上看需要IT基礎(chǔ)設(shè)施的助力,包括算法的迭代、硬件性能提升及成本下降,企業(yè)IT架構(gòu)的調(diào)整。需求和技術(shù)的相互促進(jìn)將帶來更多創(chuàng)新機(jī)會(huì)。
1. 工具大眾化
人類生產(chǎn)工具的最終目的是提升生產(chǎn)效率。讓復(fù)雜的工作變得更簡單,讓機(jī)器去負(fù)擔(dān)最復(fù)雜的那部分運(yùn)算邏輯,讓人關(guān)注工作中更具創(chuàng)造性的部分。
上面所列的絕大多數(shù)數(shù)據(jù)處理工具都有較高的技術(shù)門檻和使用門檻,但企業(yè)最終使用數(shù)據(jù)的是決策者、運(yùn)營人員和業(yè)務(wù)人員。他們并不具備高超的IT技能,這就無形中增加了企業(yè)使用數(shù)據(jù)過程中的溝通成本。所以,未來數(shù)據(jù)工具大眾化也一定是大家追求的目標(biāo)。
國外不少產(chǎn)品用Excel的形態(tài)來方便業(yè)務(wù)人員使用數(shù)據(jù),降低工具使用的門檻。雖然這種形態(tài)無法發(fā)揮大數(shù)據(jù)工具的所有能力,但在用戶體驗(yàn)上還是更進(jìn)了一步。
大眾化UI(交互界面)的形態(tài)并沒有局限,但如何保證易用性才是問題的關(guān)鍵。也只有產(chǎn)品更加大眾化,才能進(jìn)一步掃清數(shù)據(jù)工具持續(xù)提升滲透率和用戶基數(shù)的障礙。
▲ Sigma產(chǎn)品用Excel Spreadsheet的形態(tài)方便用戶使用數(shù)據(jù)
2. 產(chǎn)品跨云平臺(tái)能力
公有云廠商向來是底層技術(shù)實(shí)力比較強(qiáng)的企業(yè),其數(shù)據(jù)類產(chǎn)品當(dāng)然也并不落下風(fēng)。Snowflake能在AWS生態(tài)繁榮發(fā)展的前提也是使用AWS的S3來存儲(chǔ)。而AWS在數(shù)據(jù)產(chǎn)品中從提取傳輸、存儲(chǔ)、數(shù)據(jù)處理到消費(fèi)都有對應(yīng)的云產(chǎn)品。
如果公有云客戶的第一選擇還是考慮云廠商第一方產(chǎn)品,那第三方產(chǎn)品是不是就完全沒有機(jī)會(huì)了呢?
▲ AWS全套數(shù)據(jù)產(chǎn)品鏈
即使放眼全球,多云和混合云架構(gòu)也是企業(yè)的主流選擇。這就給大量獨(dú)立的數(shù)據(jù)工具提供了廣闊的生存空間??缭茢?shù)據(jù)產(chǎn)品也將成為未來企業(yè)需要考慮的重點(diǎn)。無論是公有云還是非公有云,數(shù)據(jù)產(chǎn)品能兼容于各類異構(gòu)云/云原生基礎(chǔ)設(shè)施,將成為用戶采用的前提。
▲ 全球92%的企業(yè)都有多云戰(zhàn)略
3. 產(chǎn)品架構(gòu)融合能力
以往我們進(jìn)行軟件架構(gòu)設(shè)計(jì)的時(shí)候,硬件成本是重要的考量因素:如何節(jié)約內(nèi)存?如何降低CPU消耗?如何平衡IO吞吐和讀寫性能?隨著摩爾定律的深入和后摩爾定律時(shí)代的到來,硬件復(fù)雜度提高,能力越來越強(qiáng),硬件的單位成本也隨之下降。
▲ 4Gb和8Gb DRAM 價(jià)格過去5年呈下降趨勢 資料來源:MacroMicro
這時(shí)候我們需要考慮如何把更多的事交給硬件去做,而軟件也在擴(kuò)展自身功能的邊界。以近年來較受關(guān)注的概念HTAP(混合事務(wù)型和分析型數(shù)據(jù)庫)為例,傳統(tǒng)AP(分析型數(shù)據(jù)庫)更關(guān)注吞吐、TP(交易型數(shù)據(jù)庫)更關(guān)注實(shí)時(shí)讀寫,但隨著硬件IO能力的提升,大家開始探討為什么不能有一款數(shù)據(jù)庫可以同時(shí)兼容二者的能力呢?
▲ OLAP和OLTP數(shù)據(jù)庫正在融合
除了HTAP,在數(shù)據(jù)庫領(lǐng)域新興的其他趨勢如批流一體、湖倉一體、AI Native(算法/AI內(nèi)生在數(shù)據(jù)庫產(chǎn)品中)等等,無不體現(xiàn)了硬件能力提升背后軟件功能的邊界越來越寬的趨勢。因此,數(shù)據(jù)產(chǎn)品應(yīng)在設(shè)計(jì)之初就考慮未來產(chǎn)品的可擴(kuò)展能力,如何逐步拓寬自己的功能邊界,以獲取更大的市場。
前面提到數(shù)據(jù)類產(chǎn)品未來將在各個(gè)行業(yè)深入滲透,但行業(yè)和行業(yè)之間對產(chǎn)品的要求千差萬別。到底是產(chǎn)品本身能力擴(kuò)展能夠適應(yīng)絕大多數(shù)行業(yè),抑或未來出現(xiàn)行業(yè)版產(chǎn)品呢?這也是非常值得探討的話題。
4. 數(shù)據(jù)安全
如果不解決安全問題,數(shù)據(jù)的價(jià)值發(fā)揮將受到極大的限制。隨著數(shù)據(jù)價(jià)值的不斷提升,數(shù)據(jù)安全的價(jià)值也會(huì)越來越大。
不久前,工信部等16部門聯(lián)合發(fā)布的《關(guān)于促進(jìn)數(shù)據(jù)安全產(chǎn)業(yè)發(fā)展的指導(dǎo)意見》提出,到2025年,我國數(shù)據(jù)安全產(chǎn)業(yè)規(guī)模超過1500億元,年復(fù)合增長率超過30%。
要知道,2022年整個(gè)網(wǎng)絡(luò)安全的市場規(guī)模也不超過1000億元,而這里面還包含了70多個(gè)產(chǎn)品品類。
晨山資本在《數(shù)安法》頒布之前就已經(jīng)布局了數(shù)據(jù)安全運(yùn)營、API安全、隱私計(jì)算數(shù)據(jù)安全新興方向,也從這些企業(yè)的發(fā)展感受到市場對數(shù)據(jù)安全需求的快速提升,也就不難理解政策部門對2025年數(shù)據(jù)安全規(guī)模的樂觀預(yù)期了。
回頭來看,大數(shù)據(jù)工具的變遷歷史不過短短十余年,不過天下難事,必作于易,天下大事也必作于細(xì),前路還有很多可能性。2023年,期待能看到更多充滿生命力的創(chuàng)新涌現(xiàn),也希望更多數(shù)據(jù)方向的創(chuàng)業(yè)者來和我們一起交流探討!
編者按:本文轉(zhuǎn)載自微信公眾號:晨山資本(ID:chenshancapital),作者:吳文超
品牌、內(nèi)容合作請點(diǎn)這里:尋求合作 ››
前瞻經(jīng)濟(jì)學(xué)人
專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關(guān)注。