報(bào)告服務(wù)熱線400-068-7188

文生視頻時(shí)代已到,百度、訊飛、字節(jié)誰(shuí)能率先做出“國(guó)產(chǎn)Sora”?

分享到:
20 奇偶派 ? 2024-02-23 19:07:23  來(lái)源:奇偶派 E9545G0

作者|葉子 來(lái)源|奇偶派(ID:jioupai)

繼ChatGPT后,OpenAI又在文生視頻的領(lǐng)域中扔下了一顆深水炸彈,引爆了海內(nèi)外AI圈。

2月16日,OpenAI的文字生成視頻模型——Sora首次面世。據(jù)介紹,Sora可以根據(jù)所輸入的prompt,直接輸出最高長(zhǎng)達(dá)60秒的視頻,并且包含高度細(xì)致的背景、復(fù)雜的多角度鏡頭,以及富有情感的多個(gè)角色。

在OpenAI創(chuàng)始人阿爾特曼的社交網(wǎng)站上,其也放出了Sora生成的視頻,如下便是以“A bicycle race on ocean with different animals as athletes riding the bicycles with drone camera view”(一場(chǎng)在海洋上舉行的自行車(chē)比賽,不同的動(dòng)物作為運(yùn)動(dòng)員騎著自行車(chē),通過(guò)無(wú)人機(jī)攝像機(jī)視角進(jìn)行拍攝)為提示詞生成的視頻。

此外,用更具體的prompt也可以獲得時(shí)長(zhǎng)更久的視頻,如下便是以“一位時(shí)尚女性走在充滿(mǎn)溫暖霓虹燈和動(dòng)畫(huà)城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長(zhǎng)裙和黑色靴子,拎著黑色錢(qián)包。她戴著太陽(yáng)鏡,涂著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來(lái)走去”為提示詞生成的視頻。

這兩個(gè)視頻,如果不告訴你它們是由AI生成的,誰(shuí)又能辨別出來(lái)呢?

那么,OpenAI的首款文生視頻模型Sora是如何完成文生視頻的?其與Runway Gen-2、Pika等AI視頻工具相比,有著什么樣的進(jìn)步,又有哪些不足?Sora的出現(xiàn),會(huì)讓哪些行業(yè)出現(xiàn)翻天覆地的變化?對(duì)國(guó)內(nèi)的AI企業(yè),又有哪些啟示呢?

1

Sora的底層邏輯,其實(shí)和大語(yǔ)言模型相同?

要深入探索Sora的多方面特征,我們首先需從其技術(shù)根基著手。換句話說(shuō),我們最先需要明白的是,Sora生成視頻內(nèi)容的背后,究竟是依托于怎么樣的技術(shù)實(shí)現(xiàn)的?

在當(dāng)今的人工智能領(lǐng)域,大模型的發(fā)展都離不開(kāi)Transformer架構(gòu)。這一架構(gòu)的核心思想是利用海量數(shù)據(jù)進(jìn)行學(xué)習(xí),以便在特定的目標(biāo)場(chǎng)景中實(shí)現(xiàn)泛化效果,即通過(guò)分析先前的內(nèi)容來(lái)預(yù)測(cè)后續(xù)的內(nèi)容。

這種方法在文本生成領(lǐng)域中表現(xiàn)出色,因?yàn)槲谋緮?shù)據(jù)的結(jié)構(gòu)和標(biāo)準(zhǔn)相對(duì)一致。然而,對(duì)于視頻數(shù)據(jù),情況就大不相同了。視頻數(shù)據(jù)包含了圖像內(nèi)容、時(shí)間、顏色等多種維度的信息,如何將這些不同維度的因素有效結(jié)合,成為了構(gòu)建AI視頻模型的關(guān)鍵挑戰(zhàn)。

在Sora項(xiàng)目的推進(jìn)過(guò)程中,OpenAI深入思考并參考了大型語(yǔ)言模型的成功之道,即通過(guò)互聯(lián)網(wǎng)上的超大規(guī)模數(shù)據(jù)訓(xùn)練,以獲得通用的處理能力,從而成功將代碼、數(shù)字和各種自然語(yǔ)言進(jìn)行了有效的統(tǒng)一處理。

而為了讓視覺(jué)數(shù)據(jù)模型繼承這樣的好處,Sora也采用了與大語(yǔ)言模型相同的思路,即LLMs既然可以使用token標(biāo)記,那么Sora與采用類(lèi)似于視覺(jué)領(lǐng)域中的token不就可以解決問(wèn)題了嗎?

具體來(lái)看,Sora模型構(gòu)建了Visual Encoder視頻壓縮網(wǎng)絡(luò),將視頻轉(zhuǎn)換到低維空間Latent Space,然后將Latent Space分解成Patch表示,將視頻生成的任務(wù)轉(zhuǎn)化成通過(guò)已知Patch預(yù)測(cè)接下來(lái)的Patches的任務(wù),然后通過(guò)Decoder將Latent還原成人類(lèi)可理解的高像素視頻并拼接起來(lái),最終生成目標(biāo)視頻。

圖源:OpenAI-Sora技術(shù)文檔

也正是因?yàn)閷⒁曨l轉(zhuǎn)換成Patch表示,所以Sora模型并不像傳統(tǒng)的視覺(jué)模型那樣,需要被高寬比、分辨率、時(shí)間等因素限制,讓整個(gè)模型的范化能力和通用性變得更強(qiáng),還支持更多的Prompt類(lèi)型,完成圖生視頻、視頻擴(kuò)展、多個(gè)視頻之間連接等功能。

與先前的文本生成視頻軟件如Runway、Pika和Stable Video等“前輩”相比,Sora不僅在技術(shù)層面取得了突破性的進(jìn)步,視頻效果上更是實(shí)現(xiàn)了如代際碾壓般的降維打擊。

首先,最直接差距的便是視頻長(zhǎng)度的提升,社交平臺(tái)上一位名為“Gabor Cselle”的博主將相同的prompt“美麗、白雪皚皚的東京熙熙攘攘,鏡頭穿過(guò)熙熙攘攘的城市街道,跟隨幾個(gè)人享受美麗的雪天,在附近的攤位購(gòu)物,絢麗的櫻花花瓣隨著雪花隨風(fēng)飄揚(yáng)”輸入給Sora、Pika、Runway、Stable Video四個(gè)模型后,它們給出的結(jié)果是這樣的。

可以看到,當(dāng)前主流的AI視頻生成軟件Pika、Runway和Stable Video視頻生成的時(shí)長(zhǎng)普遍被限制在5秒內(nèi),在特定情況下,應(yīng)用戶(hù)要求,這些平臺(tái)能擴(kuò)展至16秒,這已是2024年以前AI生成視頻領(lǐng)域公認(rèn)的最長(zhǎng)時(shí)間紀(jì)錄。而Sora則突破常規(guī),其獨(dú)特的能力允許它生成長(zhǎng)達(dá)一分鐘的視頻,這一時(shí)長(zhǎng)無(wú)疑將其置于行業(yè)絕對(duì)的領(lǐng)先地位。

而在簡(jiǎn)單的時(shí)長(zhǎng)增加外,Sora多鏡頭切換的能力,也讓人十分驚嘆。

眾所周知,在真正的視頻拍攝中,多鏡頭場(chǎng)景的拍攝并不是件易事,不僅需要多個(gè)機(jī)位共同參與,還需要在后期進(jìn)行復(fù)雜的剪輯,所以過(guò)去的AI視頻大多都是單鏡頭出現(xiàn),但Sora放出的文生視頻很多都出現(xiàn)了多角度的鏡頭切換,并可以在不停的切換之間實(shí)現(xiàn)拍攝對(duì)象的一致性,這都是其他AI視頻軟件無(wú)法完成的。

此外,Sora創(chuàng)造出的場(chǎng)景和角色,已經(jīng)達(dá)到了以假亂真的地步,從各種細(xì)節(jié)上來(lái)看,都好像是真實(shí)拍攝的一般,譬如下圖人物的瞳孔、睫毛等細(xì)節(jié)處理,都看不出任何的AI味道。

不過(guò)盡管Sora在文本生成視頻的領(lǐng)域取得了顯著的進(jìn)展,它仍然只是文生視頻革命的初步嘗試。OpenAI在其技術(shù)文檔中也坦誠(chéng),Sora存在不少局限性,例如,其無(wú)法準(zhǔn)確地模擬許多涉及到交互的物理特性譬如玻璃破碎等,也會(huì)出現(xiàn)吃掉餅干一部分后餅干仍然完好無(wú)損的情況。

然而,雖然Sora距離完美還有漫長(zhǎng)的道路,但它的問(wèn)世已經(jīng)在海外被廣泛視作第四次科技革命的一個(gè)里程碑。這可以類(lèi)比于第一次工業(yè)革命中火車(chē)上首次應(yīng)用蒸汽機(jī),那一刻人們意識(shí)到,原本需要數(shù)日騎馬車(chē)完成的旅程,現(xiàn)在只需幾小時(shí)即可抵達(dá)。

360公司的董事長(zhǎng)周鴻祎對(duì)Sora的評(píng)價(jià)更是高度肯定,他表示,“Sora不僅僅是一次簡(jiǎn)單的嘗試,它所展示的,是大模型在理解和模擬真實(shí)世界方面取得的新成就和突破”,“就像做夢(mèng)一樣”。他甚至預(yù)言,Sora的出現(xiàn)可能會(huì)將通用人工智能(AGI)的實(shí)現(xiàn)時(shí)間從10年縮短至一到兩年,這無(wú)疑是對(duì)Sora以及人工智能未來(lái)潛力的極大認(rèn)可和期待。

2

Sora,將顛覆這些傳統(tǒng)行業(yè)

OpenAI Sora的推出,讓我們見(jiàn)證了一個(gè)技術(shù)奇跡的誕生。這個(gè)能夠快速且優(yōu)質(zhì)地將文字描述轉(zhuǎn)化為引人入勝視頻的AI工具,不僅僅代表著技術(shù)上的一次巨大飛躍,也預(yù)示著我們熟悉的許多行業(yè)即將面臨一場(chǎng)革命。

受其影響最大的行業(yè),莫過(guò)于視頻行業(yè)大類(lèi)下的諸多細(xì)分行業(yè)了。

目前,全球有超過(guò)60億人口是視頻工具和短視頻的用戶(hù),而其中與視頻產(chǎn)業(yè)相關(guān)的從業(yè)者可能已經(jīng)超過(guò)了將近10億人,占到了全球總?cè)丝诘?3%到14%,這些從業(yè)者涵蓋了影視行業(yè)、短視頻行業(yè)以及我們?nèi)粘S|手可及的各種視頻展示領(lǐng)域,包括廣告制作等行業(yè)。隨著人工智能(AI)技術(shù)在視頻領(lǐng)域的融合與創(chuàng)新,這些從業(yè)者所在行業(yè)正在經(jīng)歷一場(chǎng)由AI視頻技術(shù)引發(fā)的變革。

對(duì)于影視行業(yè)來(lái)說(shuō),AI視頻模型的出現(xiàn),將極大地降低拍攝劇集的門(mén)檻。

博主快刀青衣發(fā)文表示,在與業(yè)內(nèi)人士的溝通中,做了20年影視導(dǎo)演的陳坤看到Sora后說(shuō)的第一句話是“要變天了”,第二句話是“我直到今天才慶幸自己是個(gè)導(dǎo)演”。

而在追問(wèn)中,陳坤表示現(xiàn)在的影視行業(yè),分工極其精細(xì),很多工種和里面的從業(yè)者都是階段式配合,只有導(dǎo)演是需要從前期跟到后期的,然后去不停協(xié)調(diào)各個(gè)工種,從舞美、化妝、道具到燈光、攝像、攝影,從演員、編劇、劇務(wù)到動(dòng)畫(huà)特效,可以說(shuō)一個(gè)環(huán)節(jié)掉鏈子,整個(gè)戲就可能功虧一簣。而如果AI視頻按照現(xiàn)在的發(fā)展速度,至少很多簡(jiǎn)單的鏡頭、群演、燈光布景等,都可以用AI去完成了。

可以說(shuō),那些過(guò)去需要拍一年,花費(fèi)數(shù)千萬(wàn)乃至上億的影視作品,在未來(lái)憑借AI的能力,或許只需要一個(gè)月時(shí)間,成本也將大幅壓縮,一變革不僅將對(duì)影視制作的效率產(chǎn)生深遠(yuǎn)影響,更可能引發(fā)對(duì)從業(yè)者技能要求的重大轉(zhuǎn)變,未來(lái)有創(chuàng)意、會(huì)寫(xiě)prompt的導(dǎo)演,或許才是最需要的人才。

如果說(shuō)對(duì)于影視行業(yè)從業(yè)者來(lái)說(shuō),AI視頻模型是好幫手的話,那么對(duì)于廣告行業(yè)從業(yè)者來(lái)說(shuō),更像是一場(chǎng)突如其來(lái)的“滅頂之災(zāi)”。

原本高度依賴(lài)人力創(chuàng)意和精細(xì)制作流程的廣告拍攝與后期制作,在AI技術(shù)的賦能下,得以實(shí)現(xiàn)大規(guī)模的效率提升與成本優(yōu)化。比如,以往制作一支高品質(zhì)廣告片,從策劃、腳本撰寫(xiě)、場(chǎng)景搭建、模特選擇到拍攝剪輯、特效合成等環(huán)節(jié),可能耗時(shí)數(shù)月并耗費(fèi)高昂預(yù)算。

而隨著AI視頻模型的應(yīng)用,部分標(biāo)準(zhǔn)化及重復(fù)性高的工作內(nèi)容,如背景替換、動(dòng)態(tài)貼圖、群演模擬等,均可以借助AI快速生成,從而極大地縮短了項(xiàng)目周期。

同時(shí),AI作為“無(wú)情的學(xué)習(xí)機(jī)器”,完全可以替代人類(lèi)根據(jù)品牌需求自動(dòng)生成多版本廣告創(chuàng)意,并通過(guò)機(jī)器學(xué)習(xí)不斷優(yōu)化傳播效果,這無(wú)疑將對(duì)廣告行業(yè)傳統(tǒng)的創(chuàng)意生產(chǎn)模式帶來(lái)前所未有的挑戰(zhàn),試想,在未來(lái)的競(jìng)標(biāo)中,諸多友商報(bào)出數(shù)百萬(wàn)元價(jià)格的時(shí)候,AI視頻廣告公司卻能以數(shù)十萬(wàn)元甚至數(shù)萬(wàn)元的成本完美解決用戶(hù)需求,誰(shuí)又能中標(biāo)呢?

可以說(shuō),對(duì)于廣告行業(yè)來(lái)說(shuō),AI視頻帶來(lái)的影響并不只是激烈的競(jìng)爭(zhēng),更意味著整個(gè)行業(yè)的組織模式與商業(yè)模式的重構(gòu)。

此外,對(duì)于短視頻行業(yè)來(lái)說(shuō),可以生成一分鐘視頻的Sora,已經(jīng)對(duì)短視頻從業(yè)者構(gòu)成了極大的威脅。

在全球范圍內(nèi),無(wú)論是中國(guó)的抖音、快手、B站和小紅書(shū)等平臺(tái),還是國(guó)際版的TikTok,短視頻內(nèi)容消費(fèi)正處于前所未有的高峰,而隨著Sora的出現(xiàn),用戶(hù)現(xiàn)在能夠迅速制作出各種類(lèi)型的視頻內(nèi)容,未來(lái)稀缺的不再將是視頻拍攝或者剪輯的能力,只要擁有獨(dú)特的創(chuàng)意,便可輕松入局,也將會(huì)在短視頻行業(yè)中掀起另一場(chǎng)風(fēng)暴。

在Sora這一技術(shù)現(xiàn)象的輻射范圍內(nèi),在其對(duì)視頻產(chǎn)業(yè)帶來(lái)的挑戰(zhàn)與變革之外,也正悄然為其他領(lǐng)域開(kāi)辟出新的機(jī)遇。其中,算力行業(yè)自然首當(dāng)其沖,受益于Sora驅(qū)動(dòng)的AI視頻生成技術(shù)對(duì)強(qiáng)大計(jì)算能力的持續(xù)渴求,市場(chǎng)需求將迎來(lái)顯著增長(zhǎng)。但此處先按下不表,轉(zhuǎn)而聚焦于另一個(gè)重要領(lǐng)域——安全行業(yè)。

海外研究界普遍認(rèn)為,在AI視頻生成廣泛應(yīng)用后,安全領(lǐng)域的革新將會(huì)是最受惠的方向之一??梢灶A(yù)見(jiàn)的是,隨著技術(shù)的發(fā)展和普及,市場(chǎng)上將涌現(xiàn)一大批專(zhuān)注于視頻真?zhèn)舞b別技術(shù)研發(fā)與服務(wù)的新興企業(yè)。這些公司將利用最先進(jìn)的算法和技術(shù)手段,為全球范圍內(nèi)的政府、企業(yè)和個(gè)人用戶(hù)提供視頻內(nèi)容真實(shí)性驗(yàn)證服務(wù),以及相關(guān)的數(shù)據(jù)安防解決方案。

Sora帶起的這一波浪潮不僅會(huì)推動(dòng)視頻認(rèn)證技術(shù)本身的進(jìn)步,還將帶動(dòng)整個(gè)信息安全產(chǎn)業(yè)鏈的升級(jí)與完善,包括但不限于數(shù)字水印技術(shù)、深度學(xué)習(xí)檢測(cè)模型、區(qū)塊鏈存證等前沿技術(shù)的深度融合應(yīng)用。一個(gè)全新的、圍繞視頻內(nèi)容安全防護(hù)的生態(tài)系統(tǒng)也將在全球范圍內(nèi)逐步構(gòu)建起來(lái),為維護(hù)信息社會(huì)的公信力與秩序提供有力支撐。

3

百度、訊飛與字節(jié),誰(shuí)能摘下國(guó)產(chǎn)Sora桂冠?

在探討了OpenAI的Sora模型與其對(duì)其他行業(yè)帶來(lái)的深遠(yuǎn)影響之后,我們也該將視角轉(zhuǎn)向國(guó)內(nèi),關(guān)注一下中國(guó)企業(yè)在文生視頻領(lǐng)域的進(jìn)展了。

年后A股開(kāi)盤(pán)后,在Sora的催化之下,諸多概念股迅速升溫,當(dāng)日當(dāng)虹科技、中文在線、因賽集團(tuán)等公司均以漲停收盤(pán),盤(pán)后也有許多企業(yè)在投資者交流平臺(tái)交流相關(guān)進(jìn)展。

其中,2月19日虹軟科技官微宣,其核心大模型技術(shù)引擎——虹軟ArcMuse再次升級(jí)。而此次升級(jí)將支持面向商拍的商業(yè)視頻自動(dòng)生成。

據(jù)介紹,與Open AI Sora類(lèi)似,虹軟ArcMuse大模型視頻生成基于diffusion-transformer技術(shù)架構(gòu),具備豐富多樣的創(chuàng)意力和想象力。通過(guò)圖像,ArcMuse大模型能夠捕捉到商品的細(xì)節(jié)特征、質(zhì)感、色彩等方面的精確信息,生成更能展示商品真實(shí)面貌的動(dòng)態(tài)商拍視頻。

而因賽集團(tuán)則在與記者的交流中表示,其AIGC項(xiàng)目團(tuán)隊(duì)按照計(jì)劃,將在三月進(jìn)行文生視頻功能的開(kāi)發(fā),等待時(shí)機(jī)成熟后投入公測(cè)。

而在大模型的主流玩家行列里,字節(jié)跳動(dòng)早在年初就發(fā)布了超高清文生視頻模型MagicVideo-V2。據(jù)悉,該模型輸出的視頻在高清度、潤(rùn)滑度、連貫性、文本語(yǔ)義還原等方面,比目前主流的文生視頻模型Gen-2、Stable Video Diffusion、Pika1.0等更出色。

而就在前幾日,阿里云旗下魔搭社區(qū)(Model-Scope)上線文本生成視頻大模型。目前由文本特征提取、文本特征到視頻隱空間擴(kuò)散模型、視頻隱空間到視頻視覺(jué)空間這3個(gè)子網(wǎng)絡(luò)組成,整體模型參數(shù)約17億。

但整體看下來(lái),除去字節(jié)跳動(dòng)的MagicVideo-V2有一定的水平之外,其他大多都處于一言難盡,甚至還無(wú)法看到效果的階段,同Sora的距離還有很遠(yuǎn)很遠(yuǎn)。

至于國(guó)內(nèi)何時(shí)能復(fù)現(xiàn)Sora,復(fù)現(xiàn)過(guò)程中會(huì)遇到哪些問(wèn)題,也有媒體采訪了某大模型團(tuán)隊(duì)的工程副總裁。

在采訪中,對(duì)方表示,“Sora的'核彈效應(yīng)'表現(xiàn)為業(yè)內(nèi)廣泛認(rèn)可,是視覺(jué)AI的'ChatGPT時(shí)刻'”,“但是Sora打通的這條道路并不神秘,總體上沒(méi)有很多超預(yù)期的技術(shù),它是沿著大一統(tǒng)多模態(tài)大模型的既定路線,在工程上取得的一項(xiàng)成果,沒(méi)有改變既定的技術(shù)范式和設(shè)計(jì)理念。”

但對(duì)于國(guó)內(nèi)大模型團(tuán)隊(duì)的復(fù)現(xiàn)速度,他提醒道,“魔鬼在細(xì)節(jié)里,而細(xì)節(jié)在閉源模型的技術(shù)報(bào)告里幾乎沒(méi)有任何披露。追趕的速度也會(huì)由數(shù)據(jù)、算力和工程能力等硬約束。”

換一種說(shuō)法便是,其實(shí)Sora實(shí)現(xiàn)文生視頻的大致思路和邏輯都已經(jīng)在技術(shù)文檔中公之于眾了,但想要真正完成復(fù)現(xiàn)甚至超越,仍然需要考驗(yàn)國(guó)內(nèi)AI企業(yè)包括算力、數(shù)據(jù)和工程能力在內(nèi)的諸多的綜合實(shí)力。

從這樣的角度來(lái)看,那最有望做出并肩甚至超越Sora模型的企業(yè),也無(wú)外乎在大語(yǔ)言模型中領(lǐng)先的百度、科大訊飛。

百度其實(shí)在很久之前就推出了文生視頻的能力,在百度的百家號(hào)中,當(dāng)用戶(hù)上傳文章之后,會(huì)有一部分文章被百度精選出來(lái),自動(dòng)生成視頻,而在最近也發(fā)布了一款名為“UniVG”的視頻生成模型,相關(guān)效果也位于除Sora之外的前列。

同時(shí),百度作為國(guó)內(nèi)深耕AI行業(yè)最深的企業(yè),無(wú)論是算力的充足、數(shù)據(jù)的豐富還是工程能力的先進(jìn),都處于國(guó)內(nèi)第一梯隊(duì),只要其以正常的速度進(jìn)行推進(jìn),那么百度版的能力更強(qiáng)的文生視頻模型,也將于未來(lái)不久上線。

除百度外,科大訊飛作為專(zhuān)精AI賽道的公司,也是大語(yǔ)言模型競(jìng)爭(zhēng)中的佼佼者,1月底,星火認(rèn)知大模型剛完成了V3.5的升級(jí),并在華為的幫助之下,相關(guān)算力與工程能力得到了較快的提升。也有接近科大訊飛人士透露,科大訊飛目前內(nèi)部已經(jīng)開(kāi)始文生視頻進(jìn)一步攻關(guān)研發(fā)。

而在“傳統(tǒng)”領(lǐng)先的大模型企業(yè)外,字節(jié)跳動(dòng)或?qū)⒔柚鎯?chǔ)數(shù)據(jù)的優(yōu)勢(shì)彎道超車(chē)。

字節(jié)跳動(dòng)在短視頻和社交媒體方面的海量數(shù)據(jù)資源,使會(huì)其在文生視頻模型的研發(fā)上占據(jù)獨(dú)特優(yōu)勢(shì)。MagicVideo-V2的發(fā)布及其效果上的顯著提升,已經(jīng)證明了字節(jié)跳動(dòng)在該領(lǐng)域的技術(shù)實(shí)力與創(chuàng)新能力。

隨著火山引擎大模型服務(wù)平臺(tái)“火山方舟”的推出,以及與多家合作伙伴共建的生態(tài)體系不斷完善,字節(jié)跳動(dòng)不僅能夠利用自身的龐大用戶(hù)基礎(chǔ)產(chǎn)生的實(shí)時(shí)、多樣的數(shù)據(jù)流進(jìn)行訓(xùn)練優(yōu)化,還有望通過(guò)高效的模型迭代和協(xié)同創(chuàng)新,在未來(lái)開(kāi)發(fā)出能與Sora匹敵甚至超越的新一代文生視頻模型。

但這樣的優(yōu)勢(shì)也未曾不是一種包袱,作為數(shù)據(jù)層面最占優(yōu)勢(shì)的字節(jié),又能否快速補(bǔ)上工程能力上的短板,摘下國(guó)內(nèi)首個(gè)正式開(kāi)放文生視頻的桂冠,仍需要時(shí)間來(lái)證明。

4

寫(xiě)在最后

Sora的出現(xiàn),無(wú)疑是AI領(lǐng)域的一次重大突破。它不僅展現(xiàn)了AI在視頻生成領(lǐng)域的巨大潛力,更為內(nèi)容創(chuàng)作和多個(gè)行業(yè)帶來(lái)了全新的思考和機(jī)遇,抖音、Tiktok、B站、P站等視頻平臺(tái),都需要重新審視自己的內(nèi)容生態(tài)了。

而對(duì)于中國(guó)企業(yè)來(lái)說(shuō),Sora的出現(xiàn)既是挑戰(zhàn)也是動(dòng)力,國(guó)內(nèi)AI企業(yè)前方又出現(xiàn)了一個(gè)需要追趕的目標(biāo),百度、科大訊飛等在大語(yǔ)言模型中領(lǐng)先的企業(yè),以及擁有海量數(shù)據(jù)資源的字節(jié)跳動(dòng),都應(yīng)該加速了。

參考資料:

1.《OpenAI最新文生視頻模型Sora技術(shù)能力解密:基于Patch的數(shù)據(jù)規(guī)范性、多模態(tài)Prompt支持、物體持久性和遠(yuǎn)程相干性能力》,Garvin Li;

2.《Sora模型發(fā)布,哪些行業(yè)要變天?》,IT魔術(shù)師;

3.《國(guó)內(nèi)復(fù)現(xiàn)Sora能力幾何?李維:不存在跨不過(guò)的技術(shù)門(mén)檻》,中證金牛座;

4.《Sora技術(shù)文檔》,OpenAI。

編者按:本文轉(zhuǎn)載自微信公眾號(hào):奇偶派(ID:jioupai),作者:葉子

本文來(lái)源奇偶派,內(nèi)容僅代表作者本人觀點(diǎn),不代表前瞻網(wǎng)的立場(chǎng)。本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。(若存在內(nèi)容、版權(quán)或其它問(wèn)題,請(qǐng)聯(lián)系:service@qianzhan.com) 品牌合作與廣告投放請(qǐng)聯(lián)系:0755-33015062 或 hezuo@qianzhan.com

p27 q0 我要投稿

分享:
標(biāo)簽: 文生視頻 百度

品牌、內(nèi)容合作請(qǐng)點(diǎn)這里:尋求合作 ››

前瞻經(jīng)濟(jì)學(xué)人

專(zhuān)注于中國(guó)各行業(yè)市場(chǎng)分析、未來(lái)發(fā)展趨勢(shì)等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國(guó)產(chǎn)業(yè)咨詢(xún)領(lǐng)導(dǎo)者,專(zhuān)業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報(bào)、產(chǎn)業(yè)升級(jí)轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報(bào)告等領(lǐng)域解決方案,掃一掃關(guān)注。

前瞻數(shù)據(jù)庫(kù)
企查貓
作者 奇偶派
科技自媒體
163569
關(guān)注
341
文章
前瞻經(jīng)濟(jì)學(xué)人App二維碼

掃一掃下載APP

與資深行業(yè)研究員/經(jīng)濟(jì)學(xué)家互動(dòng)交流讓您成為更懂趨勢(shì)的人

研究員周關(guān)注榜

企查貓(企業(yè)查詢(xún)寶)App
×

掃一掃
下載《前瞻經(jīng)濟(jì)學(xué)人》APP提問(wèn)

 
在線咨詢(xún)
×
在線咨詢(xún)

項(xiàng)目熱線 0755-33015070

AAPP
前瞻經(jīng)濟(jì)學(xué)人APP下載二維碼

下載前瞻經(jīng)濟(jì)學(xué)人APP

關(guān)注我們
前瞻產(chǎn)業(yè)研究院微信號(hào)

掃一掃關(guān)注我們

我要投稿

×
J