文心一言全面開放,屬于百度的“iPhone時刻”
(圖片來源:攝圖網(wǎng))
作者|解碼工作室 來源|解碼Decode(ID:kankeji001)
8月31日凌晨,百度宣布文心一言首批獲批上線,正式向公眾開放服務。目前用戶已經(jīng)可以在App Store(免費榜第一)、官網(wǎng)下載/體驗,無需申請內(nèi)測資格即可使用。
大模型獲批,意味著文心一言將向所有用戶全面開放,并在用戶積累、數(shù)據(jù)獲取和產(chǎn)品迭代上占有優(yōu)勢。
李彥宏的表態(tài)也直截了當,當文心一言向數(shù)以億計互聯(lián)網(wǎng)用戶大規(guī)模開放服務后,能夠獲得大量真實世界中的人工反饋,這將進一步改進基礎模型,并以更快速度迭代文心一言,創(chuàng)造更好的用戶體驗。
與此同時,大模型也將逐漸從參數(shù)之爭演變到以AI應用和產(chǎn)業(yè)落地為主的生態(tài)之爭。而百度此前啟動的大模型領域首個創(chuàng)業(yè)大賽,據(jù)悉將在10月17日宣布結果。
據(jù)稱百度內(nèi)部對此非常重視,李彥宏甚至直接過問并指揮百度戰(zhàn)投與參賽者接洽,對優(yōu)秀產(chǎn)品給予資源和資金支持。
受開放消息提振,百度今夜凌晨美股盤中一度漲超5%。給予資本市場信心的一方面是文心一言的開放,另一方面也有此前被視為文心一言直接競對的阿里通義千問、360智腦、訊飛星火等均不在首批獲批名單中。
某種程度上,這是對百度和文心一言的認可,但同時也是一種鞭策。
一
信心從哪來?
本質(zhì)上,大模型就不是一個一蹴而就的事。
以百度為例,早在2019年就推出了知識增強的文心大模型1.0,2021年,百度又發(fā)布了全球首個百億參數(shù)的對話大模型PLATO-XL。
文心大模型系列經(jīng)過不斷迭代,為推出大語言模型“文心一言”打下了基礎。后來的故事大家都知道了,文心大模型在產(chǎn)品能力、生態(tài)能力方面處于國內(nèi)第一梯隊的水平。
從模型來看,文心一言是高度本土化的大語言模型,更加匹配中文環(huán)境的使用習慣,作為百度基本盤的搜索業(yè)務,不僅能夠提供巨大的基礎數(shù)據(jù),而且在中文搜索上具有顯著優(yōu)勢。
甚至此前,在AGIEval、C-Eval等中英文權威測試集和MMLU英文權威測試集中,文心大模型3.5取得了超過ChatGPT和LLaMa、ChatGLM等其他大模型的分數(shù)表現(xiàn),在中文評測中甚至有超越GPT-4的表現(xiàn)。
而文心一言之所以能取得這樣的成績,自然離不開百度壓強式、馬拉松式的研發(fā)投入。
數(shù)據(jù)顯示,過去十年來,百度已投入了超千億的研發(fā)費用,研發(fā)費用率從15%提升至去年的22.4%。對比海外互聯(lián)網(wǎng)大廠,百度的研發(fā)投入占比也為較高水平。在高強度的研發(fā)投入下,百度取得的成果也是顯著的。
如果仔細剖析這些成果,又是另外一層故事了。
任何一個行業(yè)都不能沒有創(chuàng)新,但并不是每一個行業(yè)都需要持續(xù)性的大規(guī)模研發(fā)投入。比如新能源汽車市場,寧德時代的研發(fā)費用就比小米還要低,這其中涉及到產(chǎn)業(yè)特征、環(huán)境、創(chuàng)新周期等多重因素。
百度在研發(fā)上的持續(xù)投入,一方面是因為技術型企業(yè)本身就要保持不斷地迭代;另一方面也是因為前瞻性布局。
百度布局AI最早可追溯到2010年,在移動互聯(lián)網(wǎng)和智能手機尚未普及的年代布局AI,沒有點魄力和前瞻性真的不行。
那么這么多年持續(xù)性的投入又給百度帶來了什么呢?
表層上我們看到的是大模型、智能云等產(chǎn)品,而本質(zhì)上百度其實構建了一個圍繞技術迭代不斷創(chuàng)新的周期穿越能力。
這種能力在其它科技巨頭身上也有,比如亞馬遜的長期主義、微軟堅定不移的投資OpenAI,相較下來靠為大模型提供彈藥從而股價暴漲的英偉達多少有些躺賺的意思了。
而百度這種能力的的具象表現(xiàn),可以用其改變和引領的四層技術棧變革舉例:芯片層、框架層、模型層和應用層,百度針對每一層都都有領先業(yè)界的關鍵自研技術。
在芯片層有昆侖芯、在框架層有飛槳、在模型層是文心大模型、在應用層是搜索等等。
并且這些產(chǎn)品或技術仍在不斷迭代進化,以文心一言為例,根據(jù)官方數(shù)據(jù),自3月發(fā)布以來,文心一言熟練掌握的創(chuàng)作體裁超過200個,內(nèi)容豐富度是發(fā)布初期的1.6倍,思維鏈長度是初期的2.1倍,知識點覆蓋達到初期的8.3倍。
其他方面,飛槳深度學習平臺已凝聚800萬開發(fā)者,服務22萬家企事業(yè)單位;“飛槳AI Studio”(星河社區(qū))已囊括609萬開發(fā)項目,成中國最大的AI社區(qū);并且百度還推出了降低開發(fā)門檻的插件開發(fā)工具集(ERNIE Bot SDK),可支持信息服務類、工具類、基于大語言模型創(chuàng)新類等多種類型的插件開發(fā),這些都是百度交出的實打?qū)嵉某煽儐巍?/p>
二
遠方:真正的“飛輪”
關于文心一言向公眾開放,其實背后的產(chǎn)業(yè)邏輯仍舊是時間成本問題。大模型與大模型之間的差異,如果去除設備、數(shù)據(jù)等不同因素,最主要的差異就在訓練的時間成本不同。
而在向公眾開放這件事上也是如此,大語言模型LLM特點是Generative pre-training(生成性預訓練),其目標是根據(jù)現(xiàn)有數(shù)據(jù)提高模型生成新且準確信息的能力。
這種方法包括兩個主要步驟:預訓練和微調(diào)。預訓練階段使用大量未標注數(shù)據(jù)訓練模型的生成能力,通常采用自監(jiān)督學習技術,模型嘗試預測數(shù)據(jù)中的缺失信息或關系;微調(diào)階段則針對特定任務或數(shù)據(jù)集進行調(diào)整。
而越早開放,意味著大模型能夠?qū)W習更多,產(chǎn)品進步迭代也會更快。例如,從GPT-3.5到GPT-4的迭代時間只用了三個月。
但大模型真正的“飛輪”嚴格意義上來說并不是其本身,而是圍繞大模型即將誕生的“AI時代操作系統(tǒng)”,也可以理解為黃仁勛口中的“iPhone時刻”。
我們可以將其視作圍繞AI展開的操作系統(tǒng)或底層平臺,類比移動互聯(lián)網(wǎng)時代誕生的操作系統(tǒng)iOS及安卓。不同之處在于,大模型并不是依靠硬件終端變化來實現(xiàn)代際變革,而是依靠人工智能技術為用戶提供的實際便利場景去完成用戶習慣的遷移。
具體來說,上述代際變革的實現(xiàn)依靠的是IT技術棧中的應用層。而在大模型平臺化的邏輯下,有兩類廠商值得關注:
1 有一定技術實力能夠獨立開發(fā)大模型的科技巨頭,比如谷歌、百度、Meta、華為、阿里等,這類公司一般技術積累相對雄厚,應用場景也更加直觀。其通用人工智能領域的想象空間不會止于SaaS軟件服務,內(nèi)容消費、社交娛樂等巨頭更擅長的領域會迅速接棒;
2 有能力快速接入大模型生態(tài),將自身應用插件化/原生化的廠商:用戶基礎大、有實際應用場景的公司會盡快接入,先發(fā)優(yōu)勢下,這類廠商的估值將直接受益于大模型的波浪式創(chuàng)新。
而在可預見的未來,會有更多的外部成熟應用將向AI平臺遷移,開啟“手轉(zhuǎn)AI”浪潮。
隨著外部成熟應用的交互圈層擴大,大模型與用戶日常生活將結合得更加緊密,參考移動互聯(lián)網(wǎng)時代的端轉(zhuǎn)手趨勢,主流應用即將展開向AI平臺的遷移,即探索AI 加持下自身應用的新場景。
今年的中關村論壇,李彥宏其實已經(jīng)提到過,大模型會催生AI原生應用。百度也的確在這方面走的比較超前,正在用AI原生思維重構所有的產(chǎn)品、服務和工作流程。百度要做第一個把全部產(chǎn)品重做一遍的公司,不是整合,不是接入,是重做,重構。
這是整個業(yè)界都非常期待的,特別是其中一點,“不是整合,不是接入,是重做,重構”。從這點來看,百度應該是有過思考的,這個思路和AI原生所表達的一樣。
以往的AI產(chǎn)品更多的是整合或接入,即用AI來改造現(xiàn)有系統(tǒng),期待現(xiàn)有系統(tǒng)有一定的智能水平。但AI原生不是這樣,是需要在產(chǎn)品設計中就考慮每一個組件都直接或間接來使用AI,來實現(xiàn)數(shù)據(jù)和知識的驅(qū)動。如果沒有重做或重構,是無法實現(xiàn)的。
比如OpenAI正考慮為AI軟件創(chuàng)建一個應用商店,以及估值超2億美元的DoNotPay這樣的應用已經(jīng)展現(xiàn)出繁榮的趨勢。好消息是,百度將在Baidu World 2023上發(fā)布多款AI原生應用,并分享如何通過AI原生思維與產(chǎn)業(yè)界實現(xiàn)共贏。
而且,為加速實現(xiàn)大模型在產(chǎn)業(yè)端的應用落地,挖掘國內(nèi)AI原生的產(chǎn)品,百度也已經(jīng)宣布將舉辦大模型領域首個創(chuàng)業(yè)大賽,將以百度全棧式技術優(yōu)勢加持,同時設立基金規(guī)模10億元的文心投資基金,致力于推動大模型賦能千行百業(yè)。
三
尾聲
正如巴里施瓦茨在《選擇的悖論》中提到:“我們要面對的選擇不斷增加,需要評估的信息也在相應增長,我們發(fā)現(xiàn)自己越來越依賴那些二手資料,而不是一手的個人經(jīng)驗”。
生成式AI正在扮演這樣一個角色。
今天往后,所有人都可以通過文心一言獲取最符合自己的搜索答案,未來也可以在百度網(wǎng)盤、百度文庫、小度等更多產(chǎn)品中使用到AI能力。
但這只是一個開始,AIGC真正的魅力在于生態(tài)的成型,更多的外部開發(fā)者甚至更多的普通用戶,可以借助文心大模型的能力構建屬于自己的產(chǎn)品或服務。換言之,AI將真正成為普世化、低門檻、高效率的生產(chǎn)力工具。
從這個角度看,文心一言向公眾開放或許是一個新時代到來的轉(zhuǎn)折點。
參考資料
[1] 八家互聯(lián)網(wǎng)大廠大模型,從通用模型到應用落地,零壹智庫
[2] ChatGPT對外開放插件,行業(yè)格局將迎來重塑,華西證券
[3] OpenAI擬打造AI應用商店,智能助理生態(tài)初現(xiàn)雛形,國盛證券
[4] 百度李彥宏:人工智能時代,IT技術棧發(fā)生了根本性變化,每日經(jīng)濟新聞
[5] 海外ChatGPT/GPT-4 如何賦能應用,華泰證券
[6] 李彥宏提及的AI原生應用是什么?知乎@wgwang
編者按:本文轉(zhuǎn)載自微信公眾號:解碼Decode(ID:kankeji001),作者:解碼工作室
前瞻經(jīng)濟學人
專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關注。