馬斯克硬剛OpenAI,用戶慘遭池魚之殃
作者|畢安娣 來源|字母榜(ID:wujicaijing)
只聽說過社交媒體想方設(shè)法讓用戶多停留的,沒聽說過主動給人加個上限的。如今開眼了,埃隆·馬斯克正在給所有推特用戶加“未成年人保護(hù)”,而這一切,居然是被AI逼的?
如今推特用戶每天最多能瀏覽多少推特,不取決于手速或者舍不舍得熬夜,而是有一個明確的數(shù)字:已驗證(也就是付費(fèi)的“藍(lán)鳥”服務(wù))賬戶10000條、未驗證賬戶1000條,而新注冊的未驗證賬戶只有500條。
就這,還是馬斯克面對憤怒的用戶,兩次提高后的標(biāo)準(zhǔn)。至于原因,是“為了解決極端水平的數(shù)據(jù)抓取和系統(tǒng)操縱問題”。
他指的正是AI公司們,為了訓(xùn)練模型,這些企業(yè)需要大量數(shù)據(jù)作為喂養(yǎng)的飼料。去年12月,馬斯克切斷了與OpenAI的數(shù)據(jù)聯(lián)系,今年4月又指責(zé)微軟非法使用推特的數(shù)據(jù)。
在馬斯克為阻止數(shù)據(jù)抓取采取激進(jìn)措施的同時,OpenAI正在面臨一項集體訴訟。訴訟的原告有16名,都是個人,換句話說,都是普通的互聯(lián)網(wǎng)沖浪人。他們指控OpenAI秘密地“從互聯(lián)網(wǎng)抓取了3000億字詞”,未經(jīng)允許從互聯(lián)網(wǎng)那個用戶那里竊取“大量私人信息”,以培訓(xùn)ChatGPT。
一邊是互聯(lián)網(wǎng)用戶和多年來積累大量UGC內(nèi)容的平臺,另一面是新興的AIGC企業(yè),一場圍繞數(shù)據(jù)抓取、隱私安全的戰(zhàn)爭已經(jīng)打響。
一
周五周五,敲鑼打鼓。好不容易要周末了,推特的用戶卻傻了,屏幕上顯示報錯信息,提醒其已經(jīng)超過了“速率限制”,違反了推特的規(guī)則,查看了過多推文。
人們壓根不知道這是什么意思,推特老板馬斯克站了出來,表示的確是有速率限制,而且宣布:為了解決極端水平的數(shù)據(jù)抓取和系統(tǒng)操縱問題,已驗證、未驗證、新注冊未驗證賬戶每天的瀏覽上限是6000、600和300條推文。
在此之前,馬斯克剛宣布推特開始禁止未登錄的用戶瀏覽內(nèi)容,用戶尚且能接受。限制實(shí)錘,用戶麻了,繼而看著這驗證與否的區(qū)別對待,眉毛挑起來了:你個老六該不會是想用這招推行“藍(lán)鳥訂閱”吧?在評論區(qū),不止一位用戶評論:“現(xiàn)在得用錢制勝了?”
不滿的聲音很大,推特的競品Hive、Mastodon、Tumblr等出現(xiàn)在熱門話題里,一張推特墓碑的梗圖被大量使用。爭議聲中,馬斯克兩次提高標(biāo)準(zhǔn)至驗證用戶10000條瀏覽、未驗證用戶1000條。
一個馬斯克的高仿號調(diào)侃道:“我設(shè)置限制,是因為你們這些推特成癮者需要出去走走。我這是在為世界做好事啊”。這種上價值的思路好,馬斯克反手就是一個轉(zhuǎn)發(fā),自己還單獨(dú)發(fā)了條“去拜訪下你的朋友和家人吧”。
不過玩笑歸玩笑,馬斯克為自己的這次“測試”給出了明確的解釋:應(yīng)對數(shù)據(jù)爬取。用戶的不滿,也在于限流的做法是否有效,而不在數(shù)據(jù)爬取的問題上。
AI初創(chuàng)公司跑來推特“扒數(shù)據(jù)”的情況有多嚴(yán)重呢?馬斯克在一條推文中說,流量激增,推特不得不啟用備用服務(wù)器:“在緊急情況下啟用大量在線服務(wù)器,僅僅是為了給某些AI初創(chuàng)公司高得離譜的估值幫忙,這太令人惱火了。”
在限流風(fēng)波的前一天,Epic Games的CEO蒂姆(Tim Sweeney)還發(fā)推抱怨推特也在建墻,馬斯克回復(fù):“數(shù)百個(甚至更多)阻止正在極其激進(jìn)地爬取推特數(shù)據(jù),到了影響用戶體驗的地步。我們應(yīng)該怎么做?我對所有想法都保持開放。”
剛才還在抱怨的蒂姆,很快就給出了認(rèn)真的建議,如在推特的服務(wù)條款中加入禁止數(shù)據(jù)爬取、以信息安全工程保護(hù)平臺,以及針對大規(guī)模濫用推特的公司采取法律行動。
值得注意的是,馬斯克在回復(fù)中提到,“絕對”會對那些竊取數(shù)據(jù)的人采取法律行動:“(樂觀地說)從現(xiàn)在起2到3年,期待在法庭上看到他們。”
不管“為付費(fèi)訂閱添柴”的猜想是不是以小人之心度了馬斯克之腹,馬斯克高舉用戶隱私大旗之外,多少有可能抱有私心。4月,馬斯克被傳出成立X.AI新人工智能公司,要對抗ChatGPT。如果真的要訓(xùn)練大語言模型,推特的用戶數(shù)據(jù),當(dāng)然是只給自己用最好。
不論如何,主動給平臺限流都做得出來,馬斯克已經(jīng)做好準(zhǔn)備,要和AI初創(chuàng)公司們硬剛到底了。
二
就在馬斯克重拳出擊給全平臺限流的時候,這場AICG熱潮的“始作俑者”、ChatGPT的造物主OpenAI,正卷入一場集體訴訟中。
這起訴訟在美國加州北區(qū)地方法院發(fā)起,原告16人,均為匿名,均為個人。訴狀很長,足足有157頁,以斯蒂芬·霍金的一句話作為開頭:“強(qiáng)大人工智能的崛起,要么是人類有史以來最好的事,要么是最糟的。”被告除了OpenAI,還有為其注資上百億美元的微軟。
核心指控是,ChatGPT使用從互聯(lián)網(wǎng)上收集的數(shù)據(jù)來“訓(xùn)練其技術(shù)”時,侵犯了“無數(shù)人的版權(quán)和隱私。”
起訴書中稱,OpenAI從互聯(lián)網(wǎng)上秘密抓取3000億字詞,竊聽了“書籍、文章、網(wǎng)站和帖子,包括未經(jīng)同意獲得的個人信息”,違反了隱私法。其中就提到了OpenAI爬取大量網(wǎng)絡(luò)數(shù)據(jù),包括社交媒體中的數(shù)據(jù)。
他們還指出OpenAI有個專有AI語料庫,積累了大量個人數(shù)據(jù),包括從Reddit帖子及其鏈接到網(wǎng)站中獲取的數(shù)據(jù)。
這是訓(xùn)練模型方面的指控,此外,原告還稱用戶與OpenAI的產(chǎn)品的互動、在產(chǎn)品中的私人信息,也都被OpenAI非法訪問、大規(guī)模盜用。
這已經(jīng)不是OpenAI第一次在美國面臨集體訴訟。去年11月,就有Github程序員對Github、OpenAI和微軟發(fā)起集體訴訟的事件,指控OpenAI涉嫌違反開源許可,使用他們貢獻(xiàn)的代碼訓(xùn)練專有AI工具GitHub Copilot。
彼時ChatGPT還沒有上線,如今回頭看,AI訓(xùn)練的問題那時就已經(jīng)暴露。如今,最新的集體訴訟針對的是用戶更為廣泛、被侵犯人群也更加廣泛(基本上就是全員受害)的ChatGPT,更重要的是,在AIGC的狂潮之下,任何法律先例都可能影響未來。
代理該案的克拉克森公益律師事務(wù)所(Clarkson)在一封聲明中,將這次的集體訴訟稱作“里程碑式”的聯(lián)邦案件,是對整個人工智能的警告。
從這個角度看,OpenAI肩上的擔(dān)子的確很重。
OpenAI因數(shù)據(jù)抓取和隱私安全已經(jīng)惹上諸多麻煩,平臺上鎖、用戶翻臉都只是冰山一角。
在歐洲,OpenAI已經(jīng)遭到了多個國家的調(diào)查,甚至在今年4月,意大利擔(dān)心ChatGPT會違反歐洲數(shù)據(jù)保護(hù)法,暫時封禁過ChatGPT。
針對整個人工智能領(lǐng)域的監(jiān)管正在推進(jìn)。法國于5月推出人工智能行動計劃,其中在AIGC方面,法國隱私監(jiān)管機(jī)構(gòu)特別關(guān)注一些AI模型從互聯(lián)網(wǎng)上搜集數(shù)據(jù)、建立數(shù)據(jù)集,用來訓(xùn)練大語言模型的做法。
最重磅的是歐盟人工智能監(jiān)管法案(EU AI Act),目前已經(jīng)走向收尾階段。該法案將有可能成為全球AI治理的范本。
三
平臺、用戶、監(jiān)管,三股力量已經(jīng)形成合圍之勢,誓要盡早給AIGC立立規(guī)矩,并且要從大模型訓(xùn)練這個起點(diǎn)開始。
一方面,時間緊迫,AIGC發(fā)展得太快。
馬斯克說“估值高得離譜的AI初創(chuàng)公司”指的是誰,咱也不知道。但這話一出,中箭的確實(shí)不少,畢竟現(xiàn)在AIGC領(lǐng)域融資一波接一波,全是熱錢。
在初創(chuàng)公司里,OpenAI估值近300億美元,融資總規(guī)模113億美元,是AIGC里最有錢的;然后是Anthropic,第二有錢,估值超過40億美元。而前幾天才以13億美元融資震驚硅谷的Inflection,估值也已經(jīng)有40億美元,而它成立不過一年多。
大的可能還在后頭。Inflection用的是自家的大語言模型,這次13億美元到手,宣布要搞2.2萬張英偉達(dá)H100芯片,做全球最大的人工智能集群。如此大規(guī)模算力,目標(biāo)參數(shù)量和數(shù)據(jù)集勢必也是驚人的。
另一方面,ChatGPT橫空出世,等它暴露出問題時,想“修補(bǔ)”并不是那么容易。OpenAI的幾代大語言模型,GPT-2數(shù)據(jù)集有40GB文本,GPT-3(也就是ChatGPT發(fā)布時用的模型)訓(xùn)練數(shù)據(jù)有570GB,至于今年才發(fā)布的GPT-4,數(shù)據(jù)集大小壓根沒透露。
海量的數(shù)據(jù)并沒有從一開始就做好記錄。谷歌前研究科學(xué)家尼西亞·桑巴斯萬曾在采訪中表示,科技公司不會記錄它們是如何收集或注釋AI訓(xùn)練數(shù)據(jù)的,甚至不知道數(shù)據(jù)集中到底有什么。
木已成舟的ChatGPT就像一個黑匣子,而且是一個打造在密室里的黑匣子,如今要做透明化、隱私保護(hù),比如羅列到底爬取了哪些數(shù)據(jù)、闡釋使用過程中會如何使用這些數(shù)據(jù)、應(yīng)用戶要求刪除某條數(shù)據(jù),其實(shí)很難。
互聯(lián)網(wǎng)沖浪人和監(jiān)管死咬OpenAI們,還有一個不容忽視的原因——在社媒發(fā)展壯大的那些年,對個人網(wǎng)絡(luò)數(shù)據(jù)保護(hù)的意識還在襁褓中,待要抗衡時,發(fā)現(xiàn)已錯過太遠(yuǎn)。
當(dāng)扎克伯格2018年首次坐上國會聽證席時,他的社交媒體平臺Facebook已經(jīng)推出了14年。彼時Facebook身陷“劍橋丑聞”,公司首席技術(shù)官稱有8700萬用戶受影響。那也是一次因數(shù)據(jù)抓取釀成的大錯。
等到今年5月阿爾特曼坐上美國國會聽證席,議員頻頻表達(dá)著在社媒時代行動不足的悔恨,意思很明了:這一次,就算不能超前,也至少要跟上AIGC的腳步。
一個接一個的大模型仍然在訓(xùn)練當(dāng)中,數(shù)據(jù)抓取是一根線頭,攥住它才有望理清AIGC的糊涂賬。
參考資料:
1、新浪科技:《馬斯克跟微軟杠上了?Twitter稱微軟非法使用其數(shù)據(jù)》
2、黑馬程序員:《這些程序員把GitHub告了!要求索賠649億》
3、界面新聞:《歐盟AI法案出爐,OpenAI等公司可打幾分,核心爭議點(diǎn)有哪些?》
4、騰訊科技:《對數(shù)據(jù)的渴求正反傷OpenAI?多國指控其違反數(shù)據(jù)保護(hù)法》
5、網(wǎng)易科技:《ChatGPT在意大利恢復(fù)上線 但OpenAI的監(jiān)管麻煩才剛剛開始》
編者按:本文轉(zhuǎn)載自微信公眾號:字母榜(ID:wujicaijing),作者:畢安娣
前瞻經(jīng)濟(jì)學(xué)人
專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關(guān)注。