當(dāng)前位置：前瞻產(chǎn)業(yè)研究院 ? 經(jīng)濟(jì)學(xué)人 ? 觀察家專欄

中國創(chuàng)業(yè)者，不敢追 Sora

分享到：

字母榜 ? 2024-03-12 16:23:21 　來源：字母榜　E4625G0

（圖片來源：攝圖網(wǎng)）

作者|趙錦杰馬舒葉來源|字母榜(ID：wujicaijing)

Sora現(xiàn)身近一個月，卻未能在國內(nèi)掀起如同ChatGPT時期的緊追不舍之態(tài)。

科技大廠仍停留在內(nèi)部探索、研發(fā)Demo的階段：字節(jié)推出AI生成視頻產(chǎn)品Boximator，騰訊研發(fā)了視頻生成模型VideoCrafter，百度發(fā)表了統(tǒng)一模式視頻生成系統(tǒng)UNiVG。至于究竟何時會推出“中國版Sora”，大廠用靜悄悄回應(yīng)著外部期待。

恒業(yè)資本創(chuàng)始合伙人江一告訴字母榜（ID：wujicaijing），投入產(chǎn)出比或?qū)⑹抢_國內(nèi)大模型玩家選擇跟進(jìn)的一大因素。在追趕Sora之前，目前在對話大模型領(lǐng)域尚處在GPT-3.5的國內(nèi)頭部玩家，對于是否要追趕上GPT-4的水平，“實(shí)際上他們也都有擔(dān)憂：一方面想要證明自身價值，至少要做到Meta開源模型Llama 2的水平；另一方面，Meta新一代開源模型Llama 3即將發(fā)布，屆時萬一投入重金后的自研模型，水平不及Llama 3乃至遭遇OpenAI自身的開源模型競爭，很可能導(dǎo)致前期投資‘竹籃打水一場空’。”

高企的成本，不僅困擾著大模型訓(xùn)練廠商推出Sora的步伐，而且同樣阻礙著創(chuàng)業(yè)者率先體驗(yàn)Sora的熱情。

在ChatGPT引爆新一輪AI應(yīng)用熱潮后，定位桌面機(jī)器人的小麗智造創(chuàng)始人兼CEO胡捷，一度找上國內(nèi)某大廠商談合作，希望將其大模型能力嵌入自家硬件。不過，在前者報出的數(shù)百萬元合作費(fèi)用面前，胡捷最終選擇了國內(nèi)一家二線大模型廠商，費(fèi)用降低了近乎十分之一。

需要更多算力支持的視頻大模型Sora，其應(yīng)用成本更是胡捷這類初創(chuàng)公司難以承擔(dān)的代價，等待越來越多國產(chǎn)平替方案的出現(xiàn)，可能是更具性價比的選擇。

除了用不起之外，Sora在視頻生成方面存在的精確度等Bug，也讓一些支付得起C端使用成本的創(chuàng)業(yè)者，不敢輕易替換掉人工。

坐擁百萬粉絲的上海市錦天城律師事務(wù)所律師候朝輝，以法律博主的身份運(yùn)營著兩檔視頻對話欄目《知V見》和《披荊斬棘的律師》，其視頻時長在10-30分鐘之間。為了保證長視頻的信息精確度和畫面精致感，候朝輝以15000元月薪，雇傭了一個專業(yè)剪輯師。

Sora出現(xiàn)后，候朝輝并沒有下意識覺得可以每月節(jié)省15000元成本了，“我不會自己去學(xué)，肯定讓剪輯師去學(xué)，他如果學(xué)會這套AI工具，就可以將效率變現(xiàn)，接更多活，賺更多錢。”

一

ChatGPT爆火之后，胡捷開始有了將大模型對話能力融入自家產(chǎn)品中的想法，嘗試打造一個桌面機(jī)器人結(jié)合類ChatGPT的新交互方式。

“（用戶）語音對話的過程中，ChatGPT的生成過程是以一個個點(diǎn)的形狀呈現(xiàn)，我們借助屏幕為其配備了一個對應(yīng)口型的虛擬人形象，可以把ChatGPT吐回來的文字，讓虛擬人開口講出來。”胡捷說道。

為了實(shí)現(xiàn)上述意圖，胡捷首先找到了一家自研大模型的國內(nèi)大廠，希望直接接入對方的對話大模型產(chǎn)品，但后者報了一個300萬元左右的合作價格，還設(shè)置了終端使用量要達(dá)到過萬臺的門檻。

對于這家去年才剛剛成立、初始團(tuán)隊(duì)在10人左右的小麗智造而言，無論是大廠給出的報價，還是設(shè)備出貨量要求，都超出了胡捷能夠承受的范圍。

退而求其次，胡捷最終選擇了國內(nèi)一家二線大模型廠商，后者按年收費(fèi)，報價只有幾十萬元，且在定制開發(fā)上配合度更高，“盡管大模型能力沒那么強(qiáng)，但是能滿足我們初期的要求。而且開放性比較強(qiáng)，允許我們接入第三方大模型，他們提供開發(fā)對接服務(wù)。”

Sora引爆新一輪大模型熱議后，胡捷們也開始等待國內(nèi)平替的到來。但平替究竟何時會來，卻不像ChatGPT時期那么有確定性了。

在江一看來，國內(nèi)大模型廠商想要追趕OpenAI，保持一個相對領(lǐng)先優(yōu)勢，在資源投入上需要優(yōu)先考慮總成本領(lǐng)先，即能否用比競爭對手低的成本，訓(xùn)練出足以媲美行業(yè)頭部水平的大模型，其次才是基于數(shù)據(jù)和場景打造差異化。

在推動大模型性能不斷迭代過程中，其所需要的算力等各類資源也呈指數(shù)級增長。ChatGPT成功運(yùn)行的背后，最少需要一萬張英偉達(dá)GPU提供算力。迭代到GPT-4后，其所需的英偉達(dá)GPU數(shù)量被爆超過了2萬張，價值達(dá)數(shù)億美元。

面對越拉越大的投入產(chǎn)出比，在江一看來，國內(nèi)大模型廠商擔(dān)憂的，不是能不能做出Sora，而是投入重金研發(fā)后，做著做著突然被硅谷的開源模型突襲，“你的價值就幾乎歸零了。”

二

對于那些直接付費(fèi)使用C端大模型產(chǎn)品的創(chuàng)業(yè)者而言，盡管免去了用不起的煩惱，但在大模型生成內(nèi)容的“幻覺”問題尚未解決之前，想讓他們跳過人工成本，自己用上Sora，還有點(diǎn)難。

專注長視頻創(chuàng)作的候朝輝，為了確保畫面的精確和精致感，平時需要用到專業(yè)相機(jī)拍攝，大容量的視頻素材使得剪映一類的傻瓜式剪輯軟件，根本無法滿足需求，日常剪輯只能用達(dá)芬奇等專業(yè)軟件，這也迫使他以每月15000元的價格，在上海雇用了一個專職剪輯師，保證一個月能剪出兩條視頻。

除此之外，候朝輝還會不定時發(fā)布訪談視頻，后期剪輯則以一條3000元的價格外包了出去。

ChatGPT時期延續(xù)下來的內(nèi)容不準(zhǔn)確、部分?jǐn)?shù)據(jù)陳舊等問題，在采取同源技術(shù)架構(gòu)的Sora身上也難以幸免。在候朝輝看來，即便真等到Sora公測那一天，也是讓剪輯師去學(xué)，而不是自己去學(xué)習(xí)如何使用，“（說到底）這個工具還是要有人去操作，它很難在短期內(nèi)把一個人淘汰掉，更多可能帶來效率的提升，然后剪輯師就可以接更多活，賺更多錢。”

即便是被外界視為影響最大的游戲影視領(lǐng)域，Sora的實(shí)際應(yīng)用效果也存疑。

在游戲行業(yè)，哪怕是獨(dú)立游戲，都不存在用不起AI工具的情況。但AI究竟能發(fā)揮多大效用，則是另一回事。獨(dú)立游戲制作人阿圖（化名）曾經(jīng)期待用AI繪圖，減輕長期占游戲行業(yè)重頭支出的游戲畫師的工作量，但是真的讓AI畫“秦王繞柱”，結(jié)果出來的效果是“秦王在跳鋼管舞”。

Sora演示效果看起來很厲害，但阿圖擔(dān)憂的另一個點(diǎn)在于，制作者還要考慮市場是否買賬，“類Sora的AI工具大量應(yīng)用在游戲行業(yè)，不僅要考慮技術(shù)本身的完善程度，還要考慮市場的反應(yīng)。在消費(fèi)心理上，用戶是否認(rèn)可制作方在游戲中大規(guī)模地使用Sora，會不會覺得這是在偷工減料？對于部分用戶來說，他愿意為了畫師的畫工，特效師的構(gòu)思付費(fèi)，但用AI生成的文本、畫面，并非是畫師設(shè)計(jì)的，這算不算是在糊弄消費(fèi)者？在這一點(diǎn)上，目前許多科技媒體調(diào)研時，都似乎忽略了市場的反映，而我認(rèn)為這恰恰是很重要的。”

基于上述種種擔(dān)憂，阿圖的團(tuán)隊(duì)，即使使用AI工具，更多也只是做一些邊角料的工作，比如畫一些概念，做一些配色嘗試，目前還沒達(dá)到可以替代部分崗位的應(yīng)用程度。

獨(dú)立導(dǎo)演杜蘭馨甚至比阿圖更進(jìn)一步，基于AI制作帶來的人員投入和精力問題，在其影視公司內(nèi)，他沒有嘗試引入AI制作，“如果把時間和精力耗費(fèi)在AI如何應(yīng)用上，可能還完不成公司接下的案例。”

在杜蘭馨看來，如同用文生圖產(chǎn)品一樣，要想應(yīng)用類Sora的工具，影視從業(yè)者還需要懂AI語言，掌握一定的技巧，才能生成想要的視頻效果。“但是目前的訓(xùn)練，工作量似乎并沒有被消減，寄望用AI減少人力成本的初衷可能只是想象中的美好，實(shí)際工作量從自己繪圖，變成了重復(fù)下達(dá)指令訓(xùn)練AI繪圖，在這個過程中，不只是人掌握了技巧，也是AI訓(xùn)練了人。”

杜蘭馨認(rèn)真算了一筆賬，以影視公司剪輯師為例，假設(shè)此前負(fù)責(zé)初級剪輯的剪輯師，月薪8000元，主要工作是收集整理素材，如果可以用Sora代替初剪，就可以節(jié)省這部分支出。但同時，公司需要把文生視頻的指令輸入工作交給高級剪輯師，那么就要上調(diào)高級剪輯師的工資。最終只有類Sora的工具應(yīng)用節(jié)約成本，足以抵消上調(diào)薪資帶來的支出，影視公司才不會虧本。

三

Sora在視頻生成方面的各類Bug,同樣是OpenAI遲緩?fù)瞥龅闹匾蛑?。在官網(wǎng)介紹中，OpenAI提醒道，Sora可能難以準(zhǔn)確模擬復(fù)雜場景的物理原理，并且可能無法理解因果關(guān)系，還可能混淆提示的空間細(xì)節(jié)，例如混淆左右，并且可能難以精確描述隨著時間推移發(fā)生的事件，例如遵循特定的相機(jī)軌跡。

根據(jù)部分拿到內(nèi)測名額的博主分享，Sora在物理方面遇到的困難，在表現(xiàn)腿部特征，或者行走方面，尤為明顯，如經(jīng)常生成雙腿交叉和相互融合的畫面。

導(dǎo)致Sora在內(nèi)容生成上出現(xiàn)各類“幻覺”的背后技術(shù)動因，在與其采用了與ChatGPT一樣的Transformer架構(gòu)。

這也是胡捷將 ChatGPT視為一個革命性產(chǎn)品，而將Sora的到來，認(rèn)為是一種延續(xù)性創(chuàng)新的原因之一。“Sora出來之后，你可以認(rèn)為是在鐵軌上運(yùn)行的火車，變成了高鐵。Claude 3的發(fā)布，同樣如此，給我的感覺就是速度由原來的300km/h，提升到了350km/h、400km/h，只是沿著既定路線的彼此較勁，而非顛覆性的突破。”

江一同樣對Sora可能給行業(yè)帶來的所謂“革命性沖擊”，持懷疑態(tài)度。在他看來，Sora再更新兩三個版本，可能就會觸摸到技術(shù)迭代的天花板，然后慢慢被后來者追平差距。就像之前國內(nèi)的語音翻譯大戰(zhàn)，一開始領(lǐng)先的科大訊飛，最后其實(shí)跟搜狗之間翻譯結(jié)果差不太多，“從商業(yè)角度考量，大模型這場混戰(zhàn)中，廠商也應(yīng)該優(yōu)先追求最小可行化產(chǎn)品，先商業(yè)化，然后再在往前走的路途中盡善盡美。”

過去一年中，上述競爭姿態(tài)已經(jīng)在對話大模型上上演過一次。隨著越來越多玩家推出大模型部署服務(wù)，在日益激烈的商業(yè)化比拼中，大模型私有化部署的價格，“從一開始的幾千萬報價，降到一千多萬，后來又降到幾百萬，乃至100萬，直到現(xiàn)在降到了50萬。”江一表示。

編者按：本文轉(zhuǎn)載自微信公眾號：字母榜(ID：wujicaijing)，作者：趙錦杰馬舒葉

本文來源字母榜，內(nèi)容僅代表作者本人觀點(diǎn)，不代表前瞻網(wǎng)的立場。本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。（若存在內(nèi)容、版權(quán)或其它問題，請聯(lián)系：service@qianzhan.com）　品牌合作與廣告投放請聯(lián)系：0755-33015062 或 hezuo@qianzhan.com

p6 q0 我要投稿

標(biāo)簽： Sora 人工智能

品牌、內(nèi)容合作請點(diǎn)這里：尋求合作 ››

產(chǎn)業(yè)規(guī)劃
園區(qū)規(guī)劃
產(chǎn)業(yè)招商
可行性研究
低空經(jīng)濟(jì)
高端裝備
生物醫(yī)藥

前瞻經(jīng)濟(jì)學(xué)人

專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者，專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報、產(chǎn)業(yè)升級轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報告等領(lǐng)域解決方案，掃一掃關(guān)注。