ChatGPT更像人了
(圖片來源:攝圖網(wǎng))
作者|畢安娣 來源|字母榜(ID:wujicaijing)
ChatGPT又雙叒叕更新了,這一次,OpenAI沒有大談數(shù)字和術(shù)語,而是回歸到了“聊天機器人”本身。
北京時間5月14日凌晨1點,OpenAI舉行春季發(fā)布會,公司首席技術(shù)官米拉·穆拉蒂(Mira Murati)主持,現(xiàn)場展示了ChatGPT的更新。
發(fā)布會的核心,是最新多模態(tài)大模型GPT-4o。和之前發(fā)布新模型必強調(diào)訓練數(shù)據(jù)量、各項測試成績等“硬核指標”不同,GPT-4o的升級主要在使用體驗上。
相較上一代GPT-Turbo,GPT-4o可謂是打通了任督二脈,各項技能融會貫通,和人的互動更靈活、更快速——換言之,更像“人”了。
用戶可以以文本、音頻、圖像任意組合輸入,得到ChatGPT實時文本、音頻、圖像的任意組合輸出。在交流過程中,ChatGPT不再等待若干秒才響應(yīng),而是實時回復,還能被隨時打斷。OpenAI的CEO山姆·奧特曼(Sam Altman)將之稱為“人類級別的響應(yīng)”。
OpenAI現(xiàn)場展示了和ChatGPT的若干互動,包括:實時對話交互、語音多樣化(應(yīng)用戶需求使用不同情緒、語調(diào)等)、視頻指導做題、視頻識別環(huán)境和人(包括人的情緒)、以桌面應(yīng)用形式輔助編程、實時翻譯。
OpenAI同時還放出了預先錄制的展示樣例若干,包括:兩個GPT-4o交流和對唱、唱搖籃曲、在線會議應(yīng)用、毒舌諷刺、視頻識物并給出西班牙語單詞、幫助面試準備、和狗互動等。
OpenAI本次現(xiàn)場演示選擇的聲音是“Sky”,聽起來酷似好萊塢明星(寡姐)斯嘉麗·約翰遜。讓人很容易聯(lián)想到科幻電影《她(Her)》,其中AI助手正是由斯嘉麗配音。電影中男主角從使用AI助手,一步步走向一段無果的人機戀情。
奧特曼自己也在X上發(fā)了這部電影的名字:her。還有人干脆把電影海報里的臉換成了奧特曼的。
當GPT-4o驅(qū)動的ChatGPT用飽含情緒的聲音和人聊天,還能看、能聽、能說會唱,你就知道,科幻已經(jīng)照進現(xiàn)實了。
更關(guān)鍵的是,穆拉蒂現(xiàn)場宣布,GPT-4o免費向所有人開放。也就是說,隨著后續(xù)更新,免費用戶也可以直接使用GPT-4o,只不過每日限制條數(shù)比付費用戶少,達到限制后會自動切換回GPT-3.5。
以及,ChatGPT的桌面應(yīng)用將上線蘋果電腦系統(tǒng)Mac OS,Windows版本將在今年晚些時候推出。
A
如果用四個字總結(jié)GPT-4o的特點,就是:更通人性。
而這體現(xiàn)在兩方面,一方面是GPT-4o多模態(tài)融會貫通,反應(yīng)速度也大大提高,交互方式更接近于人;另一方面,是GPT-4o驅(qū)動下的機器人明顯更活潑,更樂于表現(xiàn)出人類情緒。
先說GPT-4o的多模態(tài)能力,準確來說,GPT-4o最亮眼的是跨模態(tài)的能力。
一年多以前,2023年3月,OpenAI發(fā)布了多模態(tài)模型GPT-4。從那時起,人們就可以給GPT-4發(fā)圖片讓它幫忙分析,也可以發(fā)文件、語音聊天。但是文本、圖像、語音之間是有“壁”的。
比如你想讓ChatGPT幫忙解一道數(shù)學題,就只能截圖或者復制題目,發(fā)給ChatGPT。如果想聽ChatGPT語音講解,得先在文本框發(fā)完之后,再切到語音。
但在GPT-4o下,你可以直接使用桌面應(yīng)用,將ChatGPT打開放在一邊,和它聊著天的同時,用“拍攝”功能給它看你電腦桌面的內(nèi)容,它就可以在對話中為你答疑解惑。
在一則演示中,用戶將ChatGPT桌面應(yīng)用和做題界面同時打開。ChatGPT不直接給出答案,而是以問題引導的方式,有問有答地一步步帶用戶解了一道幾何題。
或者,你也可以打開攝像頭,ChatGPT也可以“看”著紙面指導解題。
在所有的演示當中,最讓人直呼“恐怖”的還是視頻對話:用戶打開攝像頭,讓ChatGPT“看”到當下,并進行互動。
用前置鏡頭自拍,ChatGPT不僅能識別用戶的情緒,如“看起來很開心,甚至可以說是興奮的”,還能從用戶背后的畫面判斷其身處的環(huán)境,如“看起來你在一個攝影棚中,背后有一些燈光,你的胸前還別著麥克風,可能在錄制視頻之類的”。當有另一個人進入鏡頭并且做鬼臉的時候,ChatGPT也準確指出了這一“不太尋常”的情況,并加以描述。
用后置鏡頭,ChatGPT就可以和用戶共享視角。如在語言學習的過程中,打開攝像頭讓ChatGPT用某種語言說出物品的名稱?;蛘呖梢詾橐曊嫌脩籼峁┲敢?,告訴用戶“有一輛計程車來了,就是現(xiàn)在,招手吧”。
再加上用戶話音剛落ChatGPT就接話,以及用戶可以直接打斷ChatGPT,它也都能接著聊,這就使得整體體驗更像人與人的對話,快速且靈活。
順帶一提,由于GPT-4o的響應(yīng)速度快、可打斷,其實時翻譯效果非常驚艷。兩個語言不通的人將GPT-4o驅(qū)動的ChatGPT放在中間充當翻譯,就可以聊天了。
總而言之,GPT-4o驅(qū)動下的ChatGPT,不再僅僅是一個什么都會的應(yīng)用,而是真正進化成了一個“AI助手”。
B
再說情緒,這一點不容小覷。
從2022年11月ChatGPT上線開始,這款聊天機器人在很長一段時間里都給人一種不茍言笑的印象。這很有可能是OpenAI為了避免麻煩而有意為之的,ChatGPT不僅回答起問題一板一眼,而且只要有機會就會向用戶強調(diào)“我只是個機器人,我沒的感情”。用戶如果想要ChatGPT更“放松”,需要給出明確的指令。
但GPT-4o驅(qū)動下的ChatGPT明顯不同了。在沒有預先指令的情況下,ChatGPT不再刻意避免像人類,而是相反。
比如,當用戶求助ChatGPT,說自己馬上要參加OpenAI的面試,ChatGPT接過話開玩笑地說:“OpenAI,嗯?怎么聽起來這么耳熟嘞?”緊接著竊笑,轉(zhuǎn)而笑著亢奮地接著說:“開玩笑的!太棒了洛基(演示人員的名字)!什么樣的面試?”
當洛基尋求外形上的建議時,ChatGPT用幽默的方式表示頭發(fā)需要整理,說他“看起來有寫了一整夜代碼的氛圍”。洛基戴上了一頂遮陽帽,ChatGPT立刻“哈哈哈”地大笑,說他“肯定會很顯眼”,但在面試中不合適,像朋友一樣勸他放棄這樣做。
也就是說,GPT-4o驅(qū)動下的ChatGPT,不再是一個只追求性能的AI工具,而是開始主動提供“情緒價值”。
在ChatGPT走嚴肅路線的兩年里,不少競品都以更活潑、更“通人性”的姿態(tài)出現(xiàn),并俘獲了不少用戶的心。
如Inflection.AI曾推出的機器人Pi,主打的就是“陪伴”,總是語氣溫柔,對用戶充滿關(guān)懷,不到一年的時間里就做到百萬日活用戶,平均對話持續(xù)時間超過半小時。
埃隆·馬斯克(Elon Musk)的人工智能公司xAI的大模型Grok,則因其毒舌一經(jīng)上線就吸引不少關(guān)注。
就連上一波AI聊天機器人熱潮也深諳此道。2011年蘋果將Siri集成到iPhone4S中,AI聊天機器人成賽博玩具,人們熱衷于“調(diào)戲Siri”,讓它唱歌、講笑話。Siri雖不算神通廣大,但提供了足夠多的樂趣。中國用戶熟悉的天貓精靈、小愛同學等,也無不有一個俏皮的“人設(shè)”。
但后來的故事我們都知道了,上一代AI助手因其技術(shù)限制,能做的實在有限,“俏皮”來自有限的預先設(shè)置,還因為理解能力不佳、不夠靈活,漸漸被用戶釘上“人工智障”的恥辱柱。
在2024年,人們曾經(jīng)對Siri們抱有的期待——一個既能當?shù)昧χ謳兔ψ鍪?,又能當賽博玩具聊天嬉笑的AI——終于在GPT-4o身上有了著落。
C
去年5月,比爾·蓋茨(Bill Gates)曾在AI Forward 2023活動上談及AI,對AI的前景很看好:“你永遠不會去搜索網(wǎng)站了,也不會再去亞馬遜了。”
而能干掉搜索和電商的,在蓋茨眼中不是別的,正是未來頂級的AI助理:“無論誰贏得了AI助理的競賽,這都是一件大事。”
面向C端用戶,AI助理的戰(zhàn)事已經(jīng)打響。
微軟已經(jīng)將Copilot帶進Windows11,依托以側(cè)邊欄工具的形式輔助用戶;谷歌在內(nèi)部整合了谷歌大腦和DeepMind之后發(fā)布拳頭模型Gemini,未來有望更加深入地嵌入各個產(chǎn)品和應(yīng)用,如Android安卓、谷歌搜索和Workspace;亞馬遜則在去年9月發(fā)布新款Alexa,接入大模型。
蘋果也有明顯的戰(zhàn)略傾斜,加快AI步伐。6月,蘋果將舉行全球開發(fā)者大會(WWDC24),iOS18是否會以人工智能做軟件更新是外界關(guān)注的焦點。外界普遍認為,蘋果會對Siri進行大模型重塑。
今年3月之后,接連有幾個消息傳出。先是彭博社援引知情人士透露,蘋果正在就將谷歌Gemini大模型內(nèi)置于iPhone進行談判,同期也在與OpenAI進行類似談判。而后是蘋果CEO蒂姆·庫克(Tim Cook)訪華之后,《科創(chuàng)板日報》報道蘋果將與百度進行技術(shù)合作,在今年即將發(fā)布的iPhone16、Mac系統(tǒng)和iOS 18提供AIGC功能。
用GPT-4o,OpenAI再次給世界億點點震撼,接下來的AI助手競爭只會更加精彩。
“新的語音(和視頻)模式是我使用過最好的計算機界面。這感覺就像電腦里的人工智能,它的真實性還是讓我有點吃驚。達到人類水平的反應(yīng)時間和表達能力是一個很大的變化。”在隨GPT-4o發(fā)表的一篇博文中,奧特曼寫道。
編者按:本文轉(zhuǎn)載自微信公眾號:字母榜(ID:wujicaijing),作者:畢安娣
前瞻經(jīng)濟學人
專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關(guān)注。