報告服務(wù)熱線400-068-7188

預(yù)見2024:《2024年中國大語言模型行業(yè)全景圖譜》(附市場規(guī)模、競爭格局和發(fā)展前景等)

分享到:
20 吳小燕 ? 2024-07-17 10:00:25  來源:前瞻產(chǎn)業(yè)研究院 E30884G2

行業(yè)主要上市公司:百川智能(A04400.SH)、昆侖萬維(300418.SZ)、拓維信息(002261.SZ)、浪潮信息(000977.SZ)、科大訊飛(002230.SZ)等

本文核心數(shù)據(jù):中國大語言模型產(chǎn)業(yè)鏈;中國代表性大語言模型產(chǎn)品商業(yè)化進程;大語言模型市場規(guī)模及測算;大語言模型市場規(guī)模預(yù)測等

行業(yè)概況

1、定義

大規(guī)模語言模型(Large Language Models,LLM),也稱大語言模型或大型語言模型,是一種由包含數(shù)百億以上參數(shù)的深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的語言模型,通常使用自監(jiān)督學(xué)習(xí)方法通過大量無標(biāo)注文本進行訓(xùn)練。自2018年以來,Google、OpenAI、Meta、百度、華為等公司和研究機構(gòu)都相繼發(fā)布了包括BERT,GPT-3等在內(nèi)的大語言模型,隨后幾年來,大語言模型呈現(xiàn)爆發(fā)式的增長。用戶可以使用自然語言與系統(tǒng)交互,從而實現(xiàn)包括問答、分類、摘要、翻譯、聊天等從理解到生成的各種任務(wù)。大規(guī)模語言模型展現(xiàn)出了強大的對世界知識掌握和對語言的理解能力。

2、大語言模型構(gòu)建流程

根據(jù)OpenAI 聯(lián)合創(chuàng)始人Andrej Karpathy在微軟Build 2023大會上所公開的信息,OpenAI所使用的大規(guī)模語言模型構(gòu)建流程如下圖所示。主要包含四個階段:預(yù)訓(xùn)練、有監(jiān)督微調(diào)、獎勵建模、強化學(xué)習(xí)。這四個階段都需要不同規(guī)模數(shù)據(jù)集合以及不同類型的算法,會產(chǎn)出不同類型的模型,同時所需要的資源也有非常大的差別。

圖表1:OpenAI 使用的大規(guī)模語言模型構(gòu)建流程

3、產(chǎn)業(yè)鏈剖析

從產(chǎn)業(yè)鏈角度來看,大語言模型產(chǎn)業(yè)鏈主要分為三部分,分別為基礎(chǔ)技術(shù)層、大語言模型產(chǎn)品以及應(yīng)用層。基礎(chǔ)層包括芯片、云平臺、數(shù)據(jù)等基礎(chǔ)技術(shù)和數(shù)據(jù)要素,大語言模型產(chǎn)品目前可分為四大類,分別為國外開源平臺、國外閉源平臺、國內(nèi)開源平臺、國內(nèi)閉源平臺。在落地應(yīng)用層面,主要應(yīng)用包括搜索引擎、對話式AI、文案輸出等。

圖表2:中國大語言模型產(chǎn)業(yè)鏈

從產(chǎn)業(yè)鏈各環(huán)節(jié)的參與者來看,核心環(huán)節(jié)大語言模型平臺的建設(shè)由于技術(shù)密集程度較高、訓(xùn)練成本巨大,因此,僅有部分少數(shù)互聯(lián)網(wǎng)巨頭可參與其中,搭建自研大語言模型憑條。代表性企業(yè)包括華為、百度、商湯、騰訊。產(chǎn)業(yè)鏈上游技術(shù)層面中,包括芯片生產(chǎn)、云平臺搭建以及數(shù)據(jù)要素收集等,這些領(lǐng)域技術(shù)壁壘同樣較高,參與者均為互聯(lián)網(wǎng)、計算機行業(yè)頭部公司。

圖表3:中國大語言模型產(chǎn)業(yè)生態(tài)圖譜

行業(yè)發(fā)展歷程:行業(yè)發(fā)展突飛猛進

大語言模型的發(fā)展歷程雖然只有短短六年的時間,但是發(fā)展速度相當(dāng)驚人,迄今為止,國內(nèi)外有超過百種大模型相繼發(fā)布。下圖給出了2019年至2023年比較有影響力并且模型參數(shù)量超過100億的大語言模型的發(fā)展時序。

圖表4:全球大語言模型發(fā)展時間線

行業(yè)政策背景:從技術(shù)供給端對行業(yè)予以支持

我國大力支持大型語言模型的發(fā)展,截至2023年,我國直接支持大型語言模型發(fā)展的政策數(shù)量相對較少,且主要集中在2023年發(fā)布,更多是從人工智能技術(shù)以及算力設(shè)備等角度支持行業(yè)發(fā)展。具體如下表所示:

圖表5:截至2023年中國大型語言模型國家層面發(fā)展政策匯總(一)

圖表6:截至2023年中國大型語言模型國家層面發(fā)展政策匯總(二)

圖表7:截至2023年中國大型語言模型國家層面發(fā)展政策匯總(三)

行業(yè)發(fā)展現(xiàn)狀

1、大語言模型技術(shù)路線分析

根據(jù)技術(shù)路線不同,大語言模型可分為Encoder-Decoder(或者Encoder-Only)和Decoder-Only,其中,Encoder-Decoder或者Encoder-Only訓(xùn)練方式為Masked語言模型,代表性模型包括ELMo,BERT,RoBERTa,DistilBERT,BioBERT,XLM,Xlnet,ALBERT,ELECTRA,T5,XLM-E,ST-MoE,AlexaTM;Decoder-Only訓(xùn)練方式為自回歸語言模型,代表模型包括GPT-3,OPT,PaLM,BLOOM,GLM,MT-NLG,GLaM,Gopher, chinchilla,LaMDA,GPT-J,LLaMA,GPT-4,BloombergGPT等。

2020年后,Encoder-Only技術(shù)基本不在發(fā)展,近年來,Encoder-Decoder類型技術(shù)路線較多。Encoder-Decoder模型相比Encoder-Only模型,通常具有更強的序列學(xué)習(xí)和生成能力,尤其擅長實現(xiàn)輸入序列到輸出序列的結(jié)構(gòu)映射,所以在機器翻譯、文摘生成和聊天機器人等任務(wù)上有更好的應(yīng)用前景。但Encoder-Only的模型結(jié)構(gòu)簡單,training和inference速度更快,在一些簡單分類或標(biāo)注任務(wù)上也具有優(yōu)勢。

圖表8:大語言模型技術(shù)分類總結(jié)

2、大語言模型技術(shù)原理

在自然語言處理(NLP)領(lǐng)域,預(yù)測下一個詞匯的任務(wù)對于許多應(yīng)用至關(guān)重要。在Transformer架構(gòu)問世之前,遞歸神經(jīng)網(wǎng)絡(luò)(RNN)是進行此類預(yù)測的常用工具。但如果RNN僅依賴于前一個詞匯來做出預(yù)測,它可能無法充分利用豐富的上下文信息。當(dāng)RNN需要考慮整個句子或整篇文章中的大量詞匯時,模型的復(fù)雜性會顯著增加。例如,在句子“我們用這個模型來做問答系統(tǒng)”中,確定“這個模型”所指的具體含義需要依賴于整個句子的上下文。RNN在處理需要廣泛上下文信息的復(fù)雜問題時可能會遇到挑戰(zhàn)。這是因為RNN的預(yù)測能力受限于其遞歸結(jié)構(gòu),這使得它難以同時處理長距離依賴和復(fù)雜的上下文關(guān)系。

Transformer模型的出現(xiàn)為解決這些問題提供了新的思路。與RNN相比,Transformer模型通過自注意力機制能夠更好地捕捉長距離依賴關(guān)系,并且能夠并行處理整個輸入序列,從而提高了處理速度和效率。這使得Transformer在需要廣泛上下文信息的任務(wù)中,如文本生成、機器翻譯和問答系統(tǒng)等,表現(xiàn)出色。2017年,Vaswani等人在論文"Attention is All You Need"中提出了具有顛覆性意義的Transformer模型。與之前的模型不同,Transformer能夠并行處理輸入數(shù)據(jù),利用更大的數(shù)據(jù)集,最重要的是,它通過注意力機制從上下文中學(xué)習(xí)單詞的含義,因此,Transformer模型現(xiàn)在被更廣泛地應(yīng)用于大語言模型當(dāng)中。

隨著基于Transformer各類語言模型的發(fā)展以及預(yù)訓(xùn)練微調(diào)范式在自然語言處理各類任務(wù)中取得突破性進展,從2020年OpenAI發(fā)布GPT-3開始,大語言模型研究也逐漸深入。雖然大語言模型的參數(shù)量巨大,通過有監(jiān)督微調(diào)和強化學(xué)習(xí)能夠完成非常多的任務(wù),但是其基礎(chǔ)理論也仍然離不開對語言的建模。Transformer結(jié)構(gòu)完全通過注意力機制完成對源語言序列和目標(biāo)語言序列全局依賴的建模,當(dāng)前幾乎全部大語言模型都是基于Transformer結(jié)構(gòu)?;赥ransformer結(jié)構(gòu)的編碼器和解碼器結(jié)構(gòu)如下圖所示,左側(cè)和右側(cè)分別對應(yīng)著編碼器(Encoder)和解碼器(Decoder)結(jié)構(gòu)。它們均由若干個基本的Transformer塊(Block)組成(對應(yīng)著圖中的灰色框)。這里N×表示進行了N次堆疊。

圖表9:基于Transformer 的編碼器和解碼器結(jié)構(gòu)

3、大語言模型商業(yè)化探索進程

截至2024年,中國的大型語言模型(LLMs)在商業(yè)化進程中表現(xiàn)出顯著的活力和創(chuàng)新。百度的文心一言在智能辦公、旅行服務(wù)、電商直播、政務(wù)服務(wù)和金融服務(wù)等多個領(lǐng)域?qū)崿F(xiàn)應(yīng)用,技術(shù)迭代迅速,用戶規(guī)模龐大。訊飛星火在智能辦公上優(yōu)勢明顯,2024年4月,公司推出了業(yè)界性能最優(yōu)的130億參數(shù)的大模型,在效果損失僅3%以內(nèi)的情況下,輸出效率、語義理解準(zhǔn)確率等均得到提升,在訊飛星火大語言模型的飛速發(fā)展下,訊飛自有的硬件產(chǎn)品也受到消費市場的關(guān)注,搭載訊飛星火的訊飛智能辦公本、訊飛聽見、訊飛智能錄音筆以及訊飛AI學(xué)習(xí)機等銷量不斷攀升。阿里巴巴的通義千問以其開源策略和高性能,在中文大模型領(lǐng)域占據(jù)一席之地,推動了低成本、易于部署的商業(yè)化解決方案。整體來看,中國的LLMs正通過技術(shù)創(chuàng)新、行業(yè)合作和安全合規(guī)等多維度努力,加速推動AI技術(shù)的商業(yè)化落地和產(chǎn)業(yè)智能化轉(zhuǎn)型。

圖表10:中國代表性大語言模型產(chǎn)品商業(yè)化進程

4、大語言模型市場規(guī)模分析

2023年末,根據(jù)我國工信部數(shù)據(jù),2023年全年我國語言大模型市場規(guī)模實現(xiàn)較快提升,應(yīng)用場景不斷豐富,增長率突破100%。據(jù)統(tǒng)計,2023年,我國大語言模型市場規(guī)模為147億元。

圖表11:2022-2023年中國大語言模型市場規(guī)模及測算(單位:億元)

行業(yè)競爭格局:參與者眾多,競爭激烈

1、行業(yè)整體競爭格局

現(xiàn)階段,我國大型語言模型可以分為四大競爭派系,分別為互聯(lián)網(wǎng)公司、AI公司、學(xué)術(shù)及科研機構(gòu)以及行業(yè)專家團隊初創(chuàng)公司,其中,互聯(lián)網(wǎng)公司主要是百度、阿里、騰訊、華為等互聯(lián)網(wǎng)大廠,核心競爭優(yōu)勢是匯集了大量高端人才,同時,平臺技術(shù)發(fā)展相對全面、快速。AI公司主要是瀾舟科技、昆侖萬維、商湯科技等以AI研發(fā)及利用為主的科技公司,其核心優(yōu)勢是主業(yè)專精于人工智能,相比互聯(lián)網(wǎng)公司,技術(shù)優(yōu)勢更加明顯。學(xué)術(shù)、科研機構(gòu)包括清華、北大、復(fù)旦、中科院等國內(nèi)一流高校以及智源研究院、IDEA研究院等科研機構(gòu),主要優(yōu)勢是學(xué)術(shù)氛圍濃厚,通常行業(yè)第一手技術(shù)發(fā)源于此。行業(yè)專家品牌則是以一些AI專家?guī)ьI(lǐng)的團隊所研發(fā)出的產(chǎn)品為核心,通常,一個團隊在短期內(nèi)主攻一款產(chǎn)品,相比其他競爭派系,AI專家團隊研發(fā)的產(chǎn)品在創(chuàng)新、突破方面做得更好,C端反饋好評度較高,盈利目的性就目前來看,略弱于互聯(lián)網(wǎng)公司產(chǎn)品。

圖表12:中國大語言模型競爭派系

2、細(xì)分領(lǐng)域競爭格局

知識儲備、長文本閱讀能力均是大語言模型的核心競爭力之一,總體來看,在知識儲備領(lǐng)域,百川3領(lǐng)先于全行業(yè),單項評分高達(dá)82分;長文本閱讀能力方面,通義千問以71.8評分領(lǐng)先于選行業(yè)。其他大模型中,訊飛星火代碼能力突出、傳統(tǒng)安全領(lǐng)域MiniMax-abab6.1得到較高評分。

圖表13:截至2024年4月SuperCLUE代表性大語言模型單項測評

注:根據(jù)SuperCLUE官網(wǎng)的信息,SuperCLUE基礎(chǔ)十大能力結(jié)構(gòu)包含四個能力象限,包括語言理解與生成、知識理解與應(yīng)用、專業(yè)能力和環(huán)境適應(yīng)與安全性,進而細(xì)化為10項基礎(chǔ)能力,包括1)語言理解與抽取;2)閑聊;3)上下文對話;4)生成與創(chuàng)作;5)知識與百科;6)代碼;7)邏輯與推理;8)計算;9)角色扮演;10)安全。

行業(yè)發(fā)展前景及趨勢預(yù)測

1、大語言模型市場規(guī)模預(yù)測

語言大模型能夠模仿人類的對話和決策能力,是率先實現(xiàn)技術(shù)突破和應(yīng)用落地的大模型,也是當(dāng)下人工智能的“主賽道”。目前,語言大模型在金融、醫(yī)療、教育、工業(yè)、游戲、法律等多個行業(yè)得到了廣泛的應(yīng)用。前瞻初步測算,到2027年,我國大語言模型市場規(guī)模將達(dá)到600億元,到2029年將達(dá)到1186億元,年復(fù)合增速在40%以上。

圖表14:2024-2029年中國大語言模型市場規(guī)模預(yù)測(單位:億元)

2、大語言模型發(fā)展趨勢預(yù)測

大型語言模型(LLMs)的發(fā)展趨勢預(yù)示著向更大規(guī)模、多模態(tài)交互、行業(yè)定制化、增強的可解釋性、強化的安全性與隱私保護、跨語言能力、開源協(xié)作、商業(yè)化服務(wù)、硬件協(xié)同優(yōu)化,以及法規(guī)與倫理框架的構(gòu)建方向發(fā)展。這些趨勢將共同推動LLMs在提升性能、拓寬應(yīng)用場景、增強用戶信任、促進技術(shù)共享與創(chuàng)新、加快企業(yè)集成和部署,以及確保社會責(zé)任和倫理標(biāo)準(zhǔn)等方面的進步,從而更廣泛地融入各行各業(yè),實現(xiàn)AI技術(shù)的可持續(xù)和負(fù)責(zé)任的發(fā)展。

圖表15:中國大語言模型未來發(fā)展趨勢

更多本行業(yè)研究分析詳見前瞻產(chǎn)業(yè)研究院《中國大模型產(chǎn)業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告》。

同時前瞻產(chǎn)業(yè)研究院還提供產(chǎn)業(yè)新賽道研究、投資可行性研究、產(chǎn)業(yè)規(guī)劃、園區(qū)規(guī)劃、產(chǎn)業(yè)招商、產(chǎn)業(yè)圖譜、產(chǎn)業(yè)大數(shù)據(jù)、智慧招商系統(tǒng)、行業(yè)地位證明、IPO咨詢/募投可研專精特新小巨人申報等解決方案。在招股說明書、公司年度報告等任何公開信息披露中引用本篇文章內(nèi)容,需要獲取前瞻產(chǎn)業(yè)研究院的正規(guī)授權(quán)。

更多深度行業(yè)分析盡在【前瞻經(jīng)濟學(xué)人APP】,還可以與500+經(jīng)濟學(xué)家/資深行業(yè)研究員交流互動。更多企業(yè)數(shù)據(jù)、企業(yè)資訊、企業(yè)發(fā)展情況盡在【企查貓APP】,性價比最高功能最全的企業(yè)查詢平臺。

前瞻產(chǎn)業(yè)研究院 - 深度報告 REPORTS

2024-2029年中國大模型產(chǎn)業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告
2024-2029年中國大模型產(chǎn)業(yè)發(fā)展前景與投資戰(zhàn)略規(guī)劃分析報告

本報告前瞻性、適時性地對大模型產(chǎn)業(yè)的發(fā)展背景、供需情況、市場規(guī)模、競爭格局等行業(yè)現(xiàn)狀進行分析,并結(jié)合多年來大模型產(chǎn)業(yè)發(fā)展軌跡及實踐經(jīng)驗,對大模型產(chǎn)業(yè)未來的發(fā)展...

查看詳情

本文來源前瞻產(chǎn)業(yè)研究院,內(nèi)容僅代表作者個人觀點,本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。(若存在內(nèi)容、版權(quán)或其它問題,請聯(lián)系:service@qianzhan.com) 品牌合作與廣告投放請聯(lián)系:0755-33015062 或 hezuo@qianzhan.com

如在招股說明書、公司年度報告等任何公開信息披露中引用本篇文章數(shù)據(jù),請聯(lián)系前瞻產(chǎn)業(yè)研究院,聯(lián)系電話:400-068-7188。

p44 q2 我要投稿

分享:

品牌、內(nèi)容合作請點這里:尋求合作 ››

前瞻經(jīng)濟學(xué)人

專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者,專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報、產(chǎn)業(yè)升級轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報告等領(lǐng)域解決方案,掃一掃關(guān)注。

前瞻數(shù)據(jù)庫
企查貓
作者 吳小燕
資深產(chǎn)業(yè)研究員、分析師
17371058
關(guān)注
1584
文章
337
前瞻經(jīng)濟學(xué)人App二維碼

掃一掃下載APP

與資深行業(yè)研究員/經(jīng)濟學(xué)家互動交流讓您成為更懂趨勢的人

研究員周關(guān)注榜

企查貓(企業(yè)查詢寶)App
×

掃一掃
下載《前瞻經(jīng)濟學(xué)人》APP提問

 
在線咨詢
×
在線咨詢

項目熱線 0755-33015070

AAPP
前瞻經(jīng)濟學(xué)人APP下載二維碼

下載前瞻經(jīng)濟學(xué)人APP

關(guān)注我們
前瞻產(chǎn)業(yè)研究院微信號

掃一掃關(guān)注我們

我要投稿

×
J