科大訊飛,布局ChatGPT玩家里的中堅力量
圖源:攝圖網(wǎng)
作者|革鼎 來源|錦緞(ID:jinduan006)
本文系基于公開資料撰寫,僅作為信息交流之用,不構成任何投資建議。
當AI以一個特定的主題,在30秒內(nèi)完成一篇文章的寫作,并在高中甚至大學某個年級的課堂里獲得第一名的最終評價時,我們知道,對于我們的下一代來說,這個世界已經(jīng)永遠改變了。
不止是寫作。當時當下,在全球各地各個產(chǎn)業(yè)領域內(nèi),一場以生成式AI為內(nèi)核的人工智能革命,正在以不可逆的態(tài)勢深入蔓延。ChatGPT為代表的生成式AI,已成為全球科技競爭的制高點。
隨之而來的是關鍵命題是:中國AI科技領域,誰將是這場全球性科技競賽的中堅破局力量?
這個問題的答案,出離不了算力、算法以及數(shù)據(jù)三個維度構成的產(chǎn)業(yè)規(guī)律。那些在人工智能領域持續(xù)耕耘的中國科技公司們,凜冬之后,終于捱到了自己的黃金時代。
比如科大訊飛(SZ:002230)。
作為ChatGPT主題研究的第二篇,本文將以訊飛為樣本,透視中國生成式AI產(chǎn)業(yè)的當下與未來。
01
中國AI進入無人區(qū)
“在做通用AI范式的時候可以想象站在一個沼澤地上,四面沒有光,也沒有手電,這時候咱都不說走多遠,往哪邊走都是個問題。這種情況下大家都選擇了相對光明的道路,就是專用AI范式。不得不佩服美國人,他把這個事情(AGI,通用人工智能)從0到1的道路硬生生的走出來了。”這是日前一場專家電話會中,一位產(chǎn)業(yè)人士對于ChatGPT及其背后的OpenAI團隊的感慨。
從專用AI到通用AI,即使OpenAI已成功闖關,但對中國的AI公司來說挑戰(zhàn)仍然巨大,說是走入無人區(qū)毫不為過。不信你瞧谷歌:
ChatGPT火爆之后,被觸及商業(yè)模式核心利益的谷歌最為著急。單純從理論上來看,它做這個事情好像不難。畢竟就連ChatGPT的底層架構Transformer模型,都是來自谷歌。
但現(xiàn)實很殘酷。谷歌的類ChatGPT項目Bard出師不利,員工通過內(nèi)部論壇Memegen批評管理層最近推出的Bard:倉促、拙劣、毫無谷歌風范(un-Googley)。
ChatGPT的通關之路難度可見一斑。
但即使如此國內(nèi)參與者也不得不跟。因為ChatGPT會對眾多產(chǎn)業(yè)帶來顛覆性變革,包括且不限于:
1)改變現(xiàn)有人機交互模式。
2)改變現(xiàn)有信息分發(fā)獲取模式。
3)改變內(nèi)容生產(chǎn)模式。
4)加速“AI for Science”的發(fā)展。
直觀一點來說,互聯(lián)網(wǎng)的核心價值是連接,ChatGPT代表的生成式AI的核心價值則是嵌入。如果嵌入至制造業(yè),生成式AI的強大遠景——存、算、編碼生成一體化所帶來的“隨心所欲”效應,無疑意味著人類生產(chǎn)力能力文明級的跨越。但在這個質(zhì)變發(fā)生(在以制造業(yè)為核心的工業(yè)領域,質(zhì)變發(fā)生仍受制于材料與能源)過程中,生成式AI作為機器智能超算,最大化價值的用途還是嵌入到科研領域,將在基礎學科研究、新材料、新能源、新藥物的研發(fā)過程中扮演關鍵角色。
02
科大訊飛的比較優(yōu)勢
目前諸多中國科技公司都在加緊布局類ChatGPT項目。所有謀局者之中,科大訊飛是比較優(yōu)勢較為突出的一個。主要體現(xiàn)在以下幾個方面:
【1】數(shù)據(jù)卡位
前文我們提到,谷歌Bard背靠海量數(shù)據(jù)出師不利,反觀ChatGPT當前最具產(chǎn)業(yè)價值的編程能力,很大功勞來自于GitHub。OpenAI在ChatGPT中引入了它830G代碼文本,那是一億程序員的智慧涌現(xiàn),編程能力不強才怪。
圖:GitHub的用戶增長曲線,來源:網(wǎng)絡
科大訊飛憑什么布局ChatGPT?OpenAI上述產(chǎn)業(yè)實踐,以及在醫(yī)療領域的突破,也許能得出一些啟示,那就是數(shù)據(jù)質(zhì)量的重要性。
目前國內(nèi)參與者在算法、算力上跟ChatGPT是有差距,但優(yōu)質(zhì)數(shù)據(jù)在一定程度上彌補了這個差距。比如ChatGPT最近通過美國執(zhí)業(yè)醫(yī)師資格考試,它在考試三個部分得分在52.4%-75%之間。而與醫(yī)療機構緊密合作的科大訊飛,其“智醫(yī)助理”系統(tǒng)2017年就通過國家執(zhí)業(yè)醫(yī)師資格考試綜合筆試測試,答對76%的題目(滿分600分,考了456分)。目前“智醫(yī)助理”作為全科醫(yī)生助手已可以診斷1200多種常見病,累計提供5.5億次AI輔診建議。
放眼整個行業(yè),長期布局AI技術的同時,又掌握醫(yī)療、教育等專業(yè)數(shù)據(jù)端口的公司是稀缺的,這是科大訊飛布局類ChatGPT項目的底氣之一。
【2】算法與成本曲線
大模型的訓練是一件燒錢的事。ChatGPT的誕生與用戶廣泛應用,離不開它對成本曲線改造:過去兩年半時間,GPT-3模型的訓練成本下降了80%以上,目前僅需要140萬美元(首次訓練約1200億美元)。而成本曲線的降低離不開算法進步。道理很簡單:同樣是訓練一次大模型,算法能力提升意味著成本曲線的降低。
OpenAI的成功在于算法迭代,GPT3比之GPT2在算法層面有本質(zhì)提升(于是它不開源了)。所以創(chuàng)立8年燒錢不斷的它還能獲得資金支持,并終于等到ChatGPT橫空出世。
回頭看國內(nèi)玩家,雖然公司間橫向的算法直接對比沒法做,這是商業(yè)秘密,但從側面還是能看到一些端倪:
科大訊飛在GitHub上開源模型比較受追捧。具體而言,其開源了6個大類、超過40個通用領域的系列中文預訓練語言模型,相關模型庫月均調(diào)用量超1000萬,在Github平臺獲得星標數(shù)位列同類中文預訓練語言模型第一。
與此同時,科大訊飛承建了認知智能國家重點實驗室。AI技術可簡單分為識別(圖像識別、語音合成與識別等)和認知(語義理解、常識推理、知識圖譜、閱讀理解等)兩大類,承建認知智能國家重點實驗室是官方對科大訊飛算法技術實力的背書。
圖:科大訊飛AI里程碑,來源:國信證券
【3】算力戰(zhàn)爭
據(jù)最新的投資者關系交流會議顯示,科大訊飛2009年至今,已建成4城7中心深度學習計算平臺,自建業(yè)界一流的AI數(shù)據(jù)中心奠定大模型訓練的硬件基石。在技術層面實現(xiàn)百億參數(shù)大模型推理效率近千倍加速,為認知智能大模型經(jīng)濟實惠的規(guī)?;峁┛赡苄浴D壳皝砜?,基本滿足類ChatGPT項目的布局。
但從長期看,科大訊飛乃至整個中國布局類ChatGPT項目的玩家,還是得大力加強算力的提升。從產(chǎn)業(yè)的發(fā)展趨勢看,算力是企業(yè)乃至當前世界最關鍵的競爭資源。殘酷的事實是,超級算力中心建設資金門檻已經(jīng)在ChatGPT出現(xiàn)后,已經(jīng)推向百億之上(在微軟的支持下),而運營與維護成本更是天文數(shù)字。
基于優(yōu)質(zhì)數(shù)據(jù)卡位,算法能力和商業(yè)化策略(下文詳述),科大訊飛在算力維度至少有一點可以抓緊做:推動企業(yè)間的分布式計算協(xié)作。強如OpenAI亦綁定微軟這個算力巨頭,2月8日微軟更是宣布將ChatGPT整合進其搜索引擎,未來隨著類ChatGPT玩家的布局行至中場,合作的機會少不了。
03
AI界的一股清流
在真實的商業(yè)世界,技術的硬實力永遠不是全部,它無法具現(xiàn)一個組織看不到的軟實力。事實上,對比絕大多數(shù)的AI公司,科大訊飛的軟實力更為突出。
過去很長時間,科大訊飛一直是A股市場上的AI獨苗。圍繞其業(yè)績的質(zhì)疑聲音一直沒斷過。直到背負巨額虧損的AI新勢力們上市,外界方看到了其自力更生的難能可貴。
圖:科大訊飛的凈利潤,來源:choice
與后進的AI新銳們不同,科大訊飛以語音識別起家,這條路線對于早期AI公司可能比較友好。眾所眾知,2006年Hinton利用預訓練方法得出神經(jīng)網(wǎng)絡局部最優(yōu)解,將隱含層推到了7層,神經(jīng)網(wǎng)絡真正上有了“深度”,由此揭開深度學習熱潮。
所謂“深度”并沒有固定數(shù)值,在語音識別中4層網(wǎng)絡就能被認為是較深的(例如谷歌產(chǎn)品voice search)。在效果一定的同時,層數(shù)越小,難度越低,計算量越少,它有利于打通技術與商業(yè)化的雙輪驅(qū)動,這對于AI從實驗室走向產(chǎn)業(yè)的起步階段非常重要。
AI的科技含量再高,它也是一門生意,先把商業(yè)的帳算清楚。任何商業(yè)的基本規(guī)律就是創(chuàng)造現(xiàn)金流、創(chuàng)造真金白銀的產(chǎn)業(yè)附加值才能持續(xù)發(fā)展。組織能自負盈虧,才能穩(wěn)健的進入其它技術分支——科大訊飛先是擁有我國唯一的“語音及語言國家工程實驗室”,后來國家唯一的“認知智能國家重點實驗室”也設在科大訊飛——一步步擴大公司的護城河。
之所以說科大訊飛更契合商業(yè)基本規(guī)律,因為這是一目了然的事情:你看所有布局類ChatGPT的玩家,只有它比較明確的開始講應用講商業(yè),“1+N”架構的行業(yè)應用已經(jīng)規(guī)劃好了。
“1”是通用認知智能大模型算法研發(fā)及高效訓練底座平臺,“N”是應用于教育、醫(yī)療、人機交互、辦公、翻譯、工業(yè)、汽車等多個行業(yè)領域的專用大模型版本。例如,通過學習海量醫(yī)學教材、論文和病例,實現(xiàn)專業(yè)的醫(yī)療領域?qū)υ捠紸I系統(tǒng),打造“每個醫(yī)生的AI診療助理,每個人的AI健康助手”。
運營節(jié)奏之外,科大訊飛是少數(shù)能做到既懂B端又懂C端的科技公司。
在中國既能服務企業(yè)、又能服務用戶的科技公司屈指可數(shù)??拼笥嶏w服務C端,不僅指智能硬件銷售,還有教育領域?qū)W生以年費形式訂閱個性化學習手冊和英語聽說業(yè)務等。目前“個冊”覆蓋1400多所學校,口語業(yè)務2022年新增12個地市的中考和2個地市的高考。
科大訊飛有可能在醫(yī)療等板塊打造C端應用的標桿,恰如ChatGPT的編程。當然,這是比較樂觀的預期,C端能力的潛在可能性。關于可能性我們不再多談,因為目前還為時尚早,期待科大訊飛的產(chǎn)品上線。
以上,成立于1999年的科大訊飛,23年風雨兼程之后,終于進入了自己的黃金時代,正成為布局ChatGPT玩家里的中堅力量。ChatGPT作為第四次工業(yè)革命開始的標志,世界商業(yè)秩序正面臨劇變,沒有人可以置身事外——如果改變世界的那個人/組織不是你,至少要和科大訊飛們站在一起。
編者按:本文轉(zhuǎn)載自微信公眾號:錦緞(ID:jinduan006),作者:革鼎
前瞻經(jīng)濟學人
專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關注。