當(dāng)前位置：前瞻產(chǎn)業(yè)研究院 ? 經(jīng)濟(jì)學(xué)人 ? 觀察家專欄

張一鳴姍姍來遲，卻更遲了

分享到：

字母榜 ? 2024-09-25 17:44:53 　來源：字母榜　E3695G0

作者|馬舒葉來源|字母榜(ID：wujicaijing)

進(jìn)入9月，視頻大模型成為了大廠的AI新賽點(diǎn)。而這一次，張一鳴再次姍姍來遲。

距離阿里通義千問文生視頻上線5天，距離6月份快手發(fā)布可靈，時(shí)間已經(jīng)過去3個(gè)月，9月24日，字節(jié)終于推出了自己的豆包·視頻生成模型。

而值得關(guān)注的是，一向看重投資回報(bào)率（ROI）、偏實(shí)用主義的張一鳴，一開始就為豆包視頻大模型定了“商業(yè)化”的調(diào)。

在活動(dòng)現(xiàn)場，火山引擎總裁譚待表示，豆包視頻生成模型從一落地就開始考慮商業(yè)化，使用領(lǐng)域包括電商營銷、動(dòng)畫教育、城市文旅和微劇本，例如音樂MV、微電影和短劇等。

圖注：輸入“一個(gè)戴著圣誕帽的小女孩抱著布偶貓”生成效果

圖源：字母榜

同時(shí)譚待也強(qiáng)調(diào)，在豆包視頻大模型發(fā)布前，就已經(jīng)在抖音不少短劇項(xiàng)目“露臉”。而上個(gè)月，昆侖萬維發(fā)布 AI 短劇生成平臺(tái)SkyReels，7月，美圖秀秀發(fā)布AI 短片生成工具M(jìn)OKI。

“現(xiàn)在已經(jīng)有上百家短劇出海企業(yè)成為AI大模型用戶。”某頭部AI 工具服務(wù)商亦表示，對于大模型廠商如字節(jié)而言，用AI打下高昂的影視制作成本，AI加持下，短劇、MV將成為類似網(wǎng)文、短視頻一樣有更多用戶參與的內(nèi)容產(chǎn)品，在他看來，“晚來的字節(jié)，下的是商業(yè)化的棋。”

事實(shí)上，當(dāng)Sora“平地一聲雷”炸圈，能否推出視頻大模型，成為了2024年衡量大模型廠商技術(shù)是否先進(jìn)的“新標(biāo)準(zhǔn)”。

在這場齊追Sora的追逐戰(zhàn)里，“不緊不慢”的字節(jié)，拖到9月底才在豆包大模型Pro升級(jí)的當(dāng)口，為視頻大模型“留了一個(gè)版面”。

當(dāng)字母榜打開即夢AI，注意到應(yīng)用豆包視頻大模型后，C端用戶能夠在即夢AI內(nèi)體驗(yàn)視頻生成。

最長12秒“中規(guī)中矩”的生成時(shí)長，對齊可靈的生成效果，“不算驚艷，但遲了幾個(gè)月，也沒被先發(fā)的視頻大模型甩出技術(shù)差距。”作為首批內(nèi)測豆包視頻大模型的AI從業(yè)者，張洋告訴字母榜，盡管國內(nèi)視頻大模型扎堆更新，但字節(jié)姍姍來遲的底氣，或許正在于此前AI視頻生成的效果，都并未能讓用戶“驚艷”。

而國產(chǎn)模型追Sora的同時(shí)，OpenAI卻已經(jīng)通過GPT-o1的推出，為基座大模型展示了強(qiáng)化學(xué)習(xí)的新路徑，OpenAI或即將迎來估值超萬億的新時(shí)代，大模型廠商們，也將面臨新的賽點(diǎn)。

一

剪映此前推出的即夢AI只支持3秒的視頻時(shí)長；加載豆包大模型后，即夢AI內(nèi)可以生成3-12秒的視頻。

相比之下，可靈1.0版本，在未開通會(huì)員的情況下，只能體驗(yàn)5秒的視頻生成，而字節(jié)的即夢AI通過每天登錄發(fā)放66積分的形式，支持用戶的免費(fèi)試用。

不過，不像豆包大模型憑借低于行業(yè)98%的價(jià)格，開始卷起“大模型零元購”，引發(fā)熱議，豆包大模型似乎不符合字節(jié)一貫“悶聲干大事”的傳統(tǒng)，顯得有些粗糙。

輸入“一個(gè)小女孩懷抱著布偶貓”的關(guān)鍵詞，在豆包視頻大模型發(fā)布前的內(nèi)測版，第一次，AI似乎將布偶貓理解成了玩偶，生成的視頻是懷抱著假貓，視頻內(nèi)的人臉也略顯僵硬。

而等9月25日再次生成后，布偶貓又變成了田園貓，第三次生成時(shí)，才AI大模型才準(zhǔn)確完成了指令。張洋告訴字母榜，作為首批內(nèi)測的AI從業(yè)者，豆包視頻大模型的使用效果并不算驚艷。

不過，豆包視頻大模型可以切換3D動(dòng)畫、2D動(dòng)畫、國畫、黑白、厚涂等不同風(fēng)格，還可以選擇隨機(jī)運(yùn)鏡，或者自定義推近、拉遠(yuǎn)等運(yùn)鏡形式，相比起只提供16:9、9:16、1:1三種畫面比例的可靈，豆包顯然更加適配不同的畫面比例，包括3:4、2:3、4:3、3:2等更多的比例選擇。

在張洋看來，在用戶的互動(dòng)的體驗(yàn)上，豆包確實(shí)提供了更多的選擇。不過，雖然豆包視頻大模型可以實(shí)現(xiàn)一個(gè)prompt內(nèi)的多鏡頭切換，但“整體畫面的銜接仍有些不流暢，人物的表情有些失真。”

不過，張一鳴這次也毫不意外地將“實(shí)用主義”刻在了豆包視頻大模型的基因里。

豆包視頻大模型一經(jīng)發(fā)布，便面向企業(yè)市場開啟邀測，同時(shí)火山引擎總裁譚待更表示，豆包視頻生成模型從一落地就開始考慮商業(yè)化，使用領(lǐng)域包括電商營銷、動(dòng)畫教育、城市文旅和微劇本，例如音樂MV、微電影和短劇等。

不同于其他“拿著錘子找釘子”的AI創(chuàng)企，不論是字節(jié)還是快手，“本身有內(nèi)容有平臺(tái)，釘子在手，做視頻大模型天然有著更多的應(yīng)用場景。”張洋表示，

7月24日，可靈AI官方微信發(fā)文透露，目前申請權(quán)限的用戶數(shù)已突破100萬，并在同一天上線付費(fèi)會(huì)員體系，包含黃金、鉑金、鉆石3個(gè)會(huì)員類別，年度會(huì)員價(jià)格從500多元到5000多元不等。對于姍姍來遲的字節(jié)而言，或許能在技術(shù)上與可靈不分上下，但在商業(yè)化路徑上，已經(jīng)開啟C端付費(fèi)的可靈，似乎再次快了一步。

二

5月，面對“OpenAI 在谷歌發(fā)布I/O的前一天發(fā)布GPT-4o”的問題，谷歌母公司Alphabet兼谷歌CEOSundar Pichai直言，“當(dāng)我們正處于AI的拐點(diǎn)上時(shí)，我看到的是機(jī)會(huì)，所以如果把這個(gè)時(shí)間線拉長，那么某一天發(fā)生的某一件事就都無關(guān)緊要了。”

如同被OpenAI時(shí)時(shí)搶跑的谷歌，晚來的字節(jié)，手握釘子，似乎打的還是后來居上的主意。

根據(jù)QuestMobile數(shù)據(jù)顯示，截止到7月份，AI APP月活用戶規(guī)模已突破6630萬。其中，豆包、文小言、Kimi、星野、通義位居top5，月活用戶規(guī)模分別為3042萬、1008萬、625萬、466萬、424萬。

盡管豆包APP的發(fā)布時(shí)間明顯晚于阿里的通義千問、更晚于百度的文心一言、Kimi，但豆包的月活用戶規(guī)模已經(jīng)大于其他四家APP用戶活躍數(shù)的總和。

因此，在AI視頻生成領(lǐng)域，面對國內(nèi)技術(shù)突破遲滯的現(xiàn)狀，字節(jié)也似乎有著晚來的底氣。

不管是先出圈的可靈，還是姍姍來遲的字節(jié)豆包視頻大模型，7月、9月扎堆推出視頻大模型的廠商們，似乎誰都沒能追趕上Sora。

從快手的《山海奇鏡之劈波斬浪》，到字節(jié)的《三星堆：未來啟示錄》，用AI做短劇成為了頭部廠商AI視頻生成效果的“煉金石”。

顯然，相比起需要真實(shí)人物出現(xiàn)并互動(dòng)的傳統(tǒng)短劇，神話、科幻等類型的短劇，更適合現(xiàn)階段的AI大模型。

“現(xiàn)在的AI生成水平不穩(wěn)定，大場景的炸彈爆炸、煙火升空等等的效果已經(jīng)真假難辨，但也需要調(diào)試人員先生圖，再進(jìn)行1-2個(gè)小時(shí)的調(diào)整，”張洋告訴字母榜，現(xiàn)在的AI大模型生成的視頻，更細(xì)節(jié)的人物表情和動(dòng)作生成，仍然存在表情不自然，動(dòng)作幅度小、表現(xiàn)形式機(jī)械的問題。

而AI短劇平臺(tái) Reel.AI 朱江也在采訪中直言，“非動(dòng)漫短劇預(yù)計(jì)要在今年下半年才能達(dá)到可消費(fèi)水平。

李彥宏曾表示，“所謂領(lǐng)先12個(gè)月或落后18個(gè)月并不重要，每個(gè)公司都處在完全競爭的市場內(nèi)，你不管做什么都有很多競爭對手。”

手握億級(jí)用戶規(guī)模的抖音APP，字節(jié)的從容不難解釋。甚至如今還未發(fā)布視頻大模型的騰訊，也手握著微信這一最大的社交APP，對于“手握釘子”的張一鳴和馬化騰，他們似乎有著更多的選擇。

三

“現(xiàn)在用哪家的視頻大模型，都在抽卡。”

“生成10次里大概有1次能真的達(dá)到商用標(biāo)準(zhǔn)，但調(diào)試10次的過程，或許還不如人工更有效率。”試用過市面上的幾家視頻大模型后，影視從業(yè)者單杉直言，現(xiàn)在的大模型在生成效果上，沒有達(dá)到用戶的期望。

“輸入生成一段布偶貓的視頻，結(jié)果要不就是理解成玩具貓，要不就是田園貓，當(dāng)用戶2-3次試用無法得到穩(wěn)定且超出預(yù)期的結(jié)果，就很難真正地完成用戶留存”。在單杉眼里，這或許也能解釋為何發(fā)布已超半年，Sora卻遲遲沒有公測。

年初便曾有報(bào)道稱，OpenAI CEO奧特曼將投入7萬億美元與臺(tái)積電合作建設(shè)晶圓廠，意在跳過英偉達(dá)自研芯片，而9月，OpenAI被爆出臺(tái)積電正在為其“Sore視頻模型”開發(fā)一款定制A16埃米級(jí)工藝芯片，目的在于提升其視頻生成能力。

而這款A(yù)16的芯片，密度提升1.10倍，在相同工作電壓下，速度提升了8%—10%;在相同速度下，功耗卻降低了15%—20%。用“更低的價(jià)格和能耗，推進(jìn)更快的AI視頻生成”，顯然是OpenAI押后Sora公測的重要原因。

想要實(shí)現(xiàn)更好的AI視頻生成效果，更大的算力成本的支出，更低的價(jià)格和能耗，這也成為了國內(nèi)視頻大模型最終能否“跑出來”的關(guān)鍵因素。

而近日，字節(jié)又被爆出計(jì)劃與臺(tái)積電就AI芯片開展合作，盡管字節(jié)隨后回應(yīng)稱報(bào)道不實(shí)，并表示在芯片領(lǐng)域的探索更多集中于推薦和廣告的業(yè)務(wù)優(yōu)化。但在字節(jié)招聘網(wǎng)頁輸入“芯片”等關(guān)鍵詞，包含AI芯片架構(gòu)、芯片SIL測試工程師在內(nèi)，已經(jīng)有200多個(gè)相關(guān)崗位。

但對于張一鳴乃至國內(nèi)的大模型頭部廠商而言，擺在他們面前的挑戰(zhàn)或許更為棘手。

9月19日，在2024云棲大會(huì)上，月之暗面創(chuàng)始人楊植麟表示，GPT-o1的推出的主要意義在于提升了 AI上限。“提升10%的生產(chǎn)力，還是說10倍GDP，這里面最重要的問題，就是能不能通過強(qiáng)化學(xué)習(xí)去進(jìn)一步scaling。”

在GPT-o1時(shí)代，當(dāng)如今的豆包、通義千問、文心、Kimi的即時(shí)聊天，從思考10秒、20秒生成答案，到能夠調(diào)用各種工具，去執(zhí)行分鐘級(jí)別甚至天級(jí)別的任務(wù)，國內(nèi)用戶已熟知的AI即時(shí)聊天產(chǎn)品形態(tài)將迎來巨大的改變，“AI更像人，或者一位助理”，這似乎成為了月之暗面?zhèn)兿乱淮巫汾sOpenAI的新賽程。

當(dāng)新的競爭時(shí)刻再次到來，國內(nèi)大模型廠商的基座大模型彼時(shí)未見“新水花”，但對于張一鳴們而言，則又一次面臨抉擇。

是將大把的“人、錢、算力”繼續(xù)投向文生視頻這樣的功能場景做迭代，還是學(xué)習(xí)OpenAI，引進(jìn)強(qiáng)化迭代路線？對于不缺錢的字節(jié)來說，當(dāng)然可以“兩個(gè)都要”。

而當(dāng)“強(qiáng)化學(xué)習(xí)”帶來的想象空間足夠大、足夠誘人，新的發(fā)令槍打響，沒能起早的字節(jié)，這一次能沖在前頭嗎？

（文中張洋、單杉為化名）

編者按：本文轉(zhuǎn)載自微信公眾號(hào)：字母榜(ID：wujicaijing)，作者：馬舒葉

本文來源字母榜，內(nèi)容僅代表作者本人觀點(diǎn)，不代表前瞻網(wǎng)的立場。本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。（若存在內(nèi)容、版權(quán)或其它問題，請聯(lián)系：service@qianzhan.com）　品牌合作與廣告投放請聯(lián)系：0755-33015062 或 hezuo@qianzhan.com

p22 q0 我要投稿

標(biāo)簽：張一鳴 AI視頻

品牌、內(nèi)容合作請點(diǎn)這里：尋求合作 ››

產(chǎn)業(yè)規(guī)劃
園區(qū)規(guī)劃
產(chǎn)業(yè)招商
可行性研究
低空經(jīng)濟(jì)
高端裝備
生物醫(yī)藥

前瞻經(jīng)濟(jì)學(xué)人

專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者，專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報(bào)、產(chǎn)業(yè)升級(jí)轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報(bào)告等領(lǐng)域解決方案，掃一掃關(guān)注。