當(dāng)前位置：前瞻產(chǎn)業(yè)研究院 ? 經(jīng)濟(jì)學(xué)人 ? 觀察家專(zhuān)欄

谷歌硬剛OpenAI，但缺王炸

分享到：

字母榜 ? 2024-05-15 17:53:15 　來(lái)源：字母榜　E4549G0

作者|畢安娣來(lái)源|字母榜(ID：wujicaijing)

五月真熱鬧，OpenAI才開(kāi)了春季發(fā)布會(huì)，谷歌I/O大會(huì)也如期召開(kāi)了。

實(shí)話實(shí)說(shuō)，觀看主題演講直播的過(guò)程中，腦海不禁會(huì)浮現(xiàn)曾被谷歌內(nèi)部員工泄露的梗圖——谷歌AI產(chǎn)品和項(xiàng)目一個(gè)又一個(gè)不同又相似的名字令人頭大。

主題演講的關(guān)鍵詞仍舊是AI，谷歌還自己在現(xiàn)場(chǎng)給出了提到“AI”的次數(shù)，在120次以上。

在萬(wàn)眾矚目的AI領(lǐng)域，谷歌宣布了若干新消息。

AI大模型升級(jí)了兩個(gè)，Gemini 1.5 Pro雙下文窗口拓展到200萬(wàn)令牌、Gemini Nano增加多模態(tài)理解能力；新發(fā)布了三個(gè)，更輕更快的Gemini 1.5 Flash、新架下的Gemma 2.0，以及視覺(jué)語(yǔ)言模型PaliGemma。

另有文生圖模型迭代至Imagen 3，還新發(fā)布了一個(gè)文生視頻模型Veo。

AI的具體應(yīng)用延展上，谷歌這次憋了不少招。

谷歌的核心產(chǎn)品搜索中，發(fā)布AI Overviews，加強(qiáng)版AI搜索摘要功能將率先上架美國(guó)。谷歌搜索中還將加入制定計(jì)劃、視頻搜索等多重AI驅(qū)動(dòng)的功能。

此外，Gemini還被塞進(jìn)谷歌照片以及即時(shí)通訊應(yīng)用Google Messages等產(chǎn)品中。

讓人聯(lián)想到OpenAI才發(fā)布的GPT-4o的，是谷歌旨在打造未來(lái)通用AI助理的新項(xiàng)目Project Astra，以及Gemin的新功能Live。Gemini Live支持與AI語(yǔ)音聊天，年內(nèi)預(yù)計(jì)加入相機(jī)功能，和AI實(shí)時(shí)“視頻通話”。

有點(diǎn)尷尬的是，在第三方拉流的直播間里，觀眾直呼“無(wú)聊”，并對(duì)眼花繚亂的名字感到困惑。CNET的評(píng)論員指出，谷歌需要精進(jìn)講故事的能力，而不是一上來(lái)就將各個(gè)部分盡數(shù)展開(kāi)。

OpenAI趕在谷歌I/O大會(huì)前一天開(kāi)春季發(fā)布會(huì)，原本盛傳的搜索產(chǎn)品沒(méi)來(lái)，但“人類(lèi)級(jí)別響應(yīng)”的GPT-4o讓人一窺新一代AI助理大戰(zhàn)的輪廓。

難以想象要是沒(méi)有OpenAI的狙擊，谷歌會(huì)有多開(kāi)朗。

本次谷歌I/O大會(huì)上，原本最具驚喜的也是AI助理方面的進(jìn)展。

首先，谷歌公布了一個(gè)新項(xiàng)目，名為Project Astra。用谷歌Deepmind負(fù)責(zé)人哈薩比斯（Demis Hassabis）的話說(shuō)，這是真正通向AGI的萬(wàn)能助手項(xiàng)目。

相比于谷歌上一代AI助手Google Assistant，Project Astra的AI助手模式多樣，且能實(shí)時(shí)交互。沒(méi)有煩人的喚醒詞，也沒(méi)有尷尬的延遲?？茨闼?，為你排憂解難。

演示視頻中，用戶打開(kāi)手機(jī)攝像頭，對(duì)準(zhǔn)任意物品，AI可以準(zhǔn)確說(shuō)出物品的名稱，如“這是一個(gè)音響”。用戶可以實(shí)時(shí)視頻的同時(shí)，在屏幕上涂畫(huà)、進(jìn)一步向AI提問(wèn)，如畫(huà)一個(gè)箭頭指向音響的某個(gè)部分，詢問(wèn)是什么。當(dāng)用戶將鏡頭對(duì)準(zhǔn)窗外時(shí)，AI則直接根據(jù)景色猜測(cè)出用戶所在的地點(diǎn)。

在攝像頭匆匆掃過(guò)場(chǎng)景的情況下，用戶求助“眼鏡放在哪兒”，助手準(zhǔn)確識(shí)別并回答“你的眼鏡在紅蘋(píng)果的旁邊”。

去年12月，Gemini就曾發(fā)布通過(guò)視頻和AI互動(dòng)的視頻，但事后承認(rèn)視頻經(jīng)過(guò)剪輯，谷歌為此沒(méi)少被戳脊梁骨。

有意思的是，這次在演示視頻的一開(kāi)頭，谷歌就鄭重承諾，視頻是實(shí)時(shí)、一次性拍攝的。

不過(guò)，谷歌尚未針對(duì)Project Astra給出明確的時(shí)間線，只是含糊地表示今年晚些時(shí)候其中的一些功能將更新到Gemini及其他應(yīng)用中。

谷歌在AI助手方面還有更看得見(jiàn)、摸得著的進(jìn)展——Gemini Live，也就是對(duì)Gemini產(chǎn)品進(jìn)行多模態(tài)功能拓展。Gemini Advanced用戶將可以用語(yǔ)音和Gemini進(jìn)行對(duì)話，對(duì)話更流暢自然，延遲更低，可以隨時(shí)打斷，預(yù)計(jì)夏天上線。谷歌還表示，今年年內(nèi)將加入相機(jī)功能，實(shí)現(xiàn)實(shí)時(shí)視頻。

可以說(shuō)這一次，谷歌被OpenAI精準(zhǔn)狙擊——GPT-4o不僅早一天發(fā)布，而且現(xiàn)場(chǎng)演示，未來(lái)幾周就會(huì)開(kāi)放給全部用戶。

近日外界都在盛傳OpenAI將推出搜索類(lèi)產(chǎn)品，與谷歌一戰(zhàn)，但這樣的情況并沒(méi)有發(fā)生，而谷歌自己也已經(jīng)馬不停蹄地升級(jí)了谷歌搜索。

搜索作為谷歌的核心產(chǎn)品，即將迎來(lái)一次大升級(jí)——搜索摘要功能AI Overview，同時(shí)包含多步推理功能Multi-Step Reasoning、在搜索中做計(jì)劃Planning in Search，以及用視頻提問(wèn)Ask With Video。

AI Overview，顧名思義，是指用戶鍵入文本、點(diǎn)擊搜索之后，出現(xiàn)在最上方的將是AI幫忙整理的信息摘要。其中包含用自然語(yǔ)言對(duì)搜索結(jié)果的總結(jié)和概括，以及推薦的鏈接。從前這被谷歌稱為“搜索生成式體驗(yàn)（SGE）”。

多步推理Multi-step reasoning則可以用來(lái)做計(jì)劃。當(dāng)用戶在搜索框鍵入“附近最好的瑜伽館”時(shí)，AI摘要會(huì)將附近瑜伽館依照評(píng)分、課程、距離等信息分類(lèi)成塊，更清晰地展示給用戶。Planning in Search則允許用戶直接用谷歌搜索做計(jì)劃，如在搜索框中鍵入飲食計(jì)劃的需求，搜索引擎會(huì)給你自動(dòng)生成一份。

想要搜索商品的時(shí)候，AI同樣會(huì)發(fā)揮作用，在搜索框鍵入“有上下坡的五英里通勤自行車(chē)”，搜索引擎會(huì)在上方給出選購(gòu)自行車(chē)的思路建議，并給出若干商品推薦。

從一個(gè)又一個(gè)詳盡的演示不難看出，谷歌已經(jīng)下定決心重塑搜索體驗(yàn)。

不過(guò)，AI搜索在很多競(jìng)品中都已經(jīng)被應(yīng)用，更有專(zhuān)做AI搜索的Perplexity.AI。谷歌對(duì)搜索體驗(yàn)作出的重大升級(jí)，放在2024年的5月已經(jīng)不大能帶來(lái)新鮮感。

應(yīng)用生態(tài)的其他新動(dòng)作更像是補(bǔ)齊，如Gmail郵箱、Google Messages通訊、谷歌照片等，Gemini逐漸拓展到越來(lái)越多的谷歌應(yīng)用中，大有“Gemini無(wú)處不在”的態(tài)勢(shì)。

AI背后的模型，谷歌這次也是大手一揮，升級(jí)的升級(jí)，新發(fā)布的新發(fā)布，Gemini家族不斷壯大。

三個(gè)月前發(fā)布的Gemini 1.5 Pro終于“發(fā)貨”了，即日起正式開(kāi)放給訂閱了Gemini Advanced（類(lèi)似ChatGPT Plus）的用戶。

Gemini 1.5 Pro支持100萬(wàn)token的上下文窗口，今年晚些時(shí)候?qū)?huì)增加到200萬(wàn)token。更形象地說(shuō)，升級(jí)后的Gemini 1.5 Pro能同時(shí)處理22小時(shí)音頻、2小時(shí)視頻、超過(guò)60000行代碼或140萬(wàn)個(gè)單詞。

新發(fā)布的模型中，Gemini 1.5 Flash原本有明星潛質(zhì)，但被OpenAI狙擊。GPT-4o驅(qū)動(dòng)的ChatGPT狙擊Project Astra和Gemini Live，GPT-4o狙擊Gemini Flash。

Gemini 1.5 Flash主打更輕更快，反應(yīng)速度和效率是其主打特色，擁有多模態(tài)推理能力，擅長(zhǎng)總結(jié)、聊天、圖像、文檔數(shù)據(jù)提取、視頻字幕等。但這些特點(diǎn)，顯然和GPT-4o撞車(chē)了。

除此之外，谷歌的開(kāi)源模型Gemma也發(fā)布了新版本，Gemma 2.0有270億參數(shù)，并拓展出多模態(tài)版本PaliGemma。

多模態(tài)生成式模型，谷歌在I/O大會(huì)上公布了三個(gè)，涵蓋圖像、音樂(lè)和視頻。

文生圖模型谷歌此前就有，此次做了迭代，發(fā)布Imagen 3。Imagen 3對(duì)提示詞的理解更加準(zhǔn)確細(xì)致，可以生成更逼真的圖像。在演示中，Imagen3從一長(zhǎng)段提示詞中提取了8個(gè)細(xì)節(jié)信息，并在生成的圖像中一一體現(xiàn)。

音樂(lè)生成模型Music AI Sandbox是全新的，用戶可以用小段Demo拓展延長(zhǎng)，也可以按照文本提示對(duì)音樂(lè)進(jìn)行再創(chuàng)作，改變和調(diào)整音樂(lè)風(fēng)格等。鑒于谷歌旗下還有YouTube等UGC平臺(tái)，此類(lèi)模型將很好地服務(wù)于創(chuàng)作者。

更惹眼的其實(shí)是谷歌此次新發(fā)布的文生視頻模型Veo。

谷歌Veo可接收文本、圖像和視頻提示，生成1080p規(guī)格、60s的高質(zhì)量長(zhǎng)視頻。

年初OpenAI曾發(fā)布Sora，雖未正式對(duì)公眾開(kāi)放使用，但演示視頻和小范圍的測(cè)試已經(jīng)讓Sora獲得了不小的追捧。從演示的效果來(lái)看，Veo可與Sora一戰(zhàn)。

這屆I/O大會(huì)，谷歌交出了誠(chéng)意滿滿的“成就清單”，大模型仍在進(jìn)步和創(chuàng)新中，AI應(yīng)用生態(tài)也不斷發(fā)展。

但新名詞轟炸之后，能留給人深刻印象的東西并不多。比起前一天發(fā)布GPT-4o讓外界感嘆科幻電影照進(jìn)現(xiàn)實(shí)的OpenAI，谷歌到底還是缺一個(gè)王炸。

編者按：本文轉(zhuǎn)載自微信公眾號(hào)：字母榜(ID：wujicaijing)，作者：畢安娣

本文來(lái)源字母榜，內(nèi)容僅代表作者本人觀點(diǎn)，不代表前瞻網(wǎng)的立場(chǎng)。本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。（若存在內(nèi)容、版權(quán)或其它問(wèn)題，請(qǐng)聯(lián)系：service@qianzhan.com）　品牌合作與廣告投放請(qǐng)聯(lián)系：0755-33015062 或 hezuo@qianzhan.com

p5 q0 我要投稿

標(biāo)簽：谷歌 OpenAI

品牌、內(nèi)容合作請(qǐng)點(diǎn)這里：尋求合作 ››

產(chǎn)業(yè)規(guī)劃
園區(qū)規(guī)劃
產(chǎn)業(yè)招商
可行性研究
低空經(jīng)濟(jì)
高端裝備
生物醫(yī)藥

前瞻經(jīng)濟(jì)學(xué)人

專(zhuān)注于中國(guó)各行業(yè)市場(chǎng)分析、未來(lái)發(fā)展趨勢(shì)等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國(guó)產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者，專(zhuān)業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報(bào)、產(chǎn)業(yè)升級(jí)轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報(bào)告等領(lǐng)域解決方案，掃一掃關(guān)注。