當(dāng)前位置：前瞻產(chǎn)業(yè)研究院 ? 經(jīng)濟(jì)學(xué)人 ? 觀察家專欄

馬斯克硬剛OpenAI，用戶慘遭池魚之殃

分享到：

字母榜 ? 2023-07-04 14:29:34 　來源：字母榜　E2869G0

作者|畢安娣來源|字母榜(ID：wujicaijing)

只聽說過社交媒體想方設(shè)法讓用戶多停留的，沒聽說過主動給人加個上限的。如今開眼了，埃隆·馬斯克正在給所有推特用戶加“未成年人保護(hù)”，而這一切，居然是被AI逼的？

如今推特用戶每天最多能瀏覽多少推特，不取決于手速或者舍不舍得熬夜，而是有一個明確的數(shù)字：已驗證（也就是付費的“藍(lán)鳥”服務(wù)）賬戶10000條、未驗證賬戶1000條，而新注冊的未驗證賬戶只有500條。

就這，還是馬斯克面對憤怒的用戶，兩次提高后的標(biāo)準(zhǔn)。至于原因，是“為了解決極端水平的數(shù)據(jù)抓取和系統(tǒng)操縱問題”。

他指的正是AI公司們，為了訓(xùn)練模型，這些企業(yè)需要大量數(shù)據(jù)作為喂養(yǎng)的飼料。去年12月，馬斯克切斷了與OpenAI的數(shù)據(jù)聯(lián)系，今年4月又指責(zé)微軟非法使用推特的數(shù)據(jù)。

在馬斯克為阻止數(shù)據(jù)抓取采取激進(jìn)措施的同時，OpenAI正在面臨一項集體訴訟。訴訟的原告有16名，都是個人，換句話說，都是普通的互聯(lián)網(wǎng)沖浪人。他們指控OpenAI秘密地“從互聯(lián)網(wǎng)抓取了3000億字詞”，未經(jīng)允許從互聯(lián)網(wǎng)那個用戶那里竊取“大量私人信息”，以培訓(xùn)ChatGPT。

一邊是互聯(lián)網(wǎng)用戶和多年來積累大量UGC內(nèi)容的平臺，另一面是新興的AIGC企業(yè)，一場圍繞數(shù)據(jù)抓取、隱私安全的戰(zhàn)爭已經(jīng)打響。

一

周五周五，敲鑼打鼓。好不容易要周末了，推特的用戶卻傻了，屏幕上顯示報錯信息，提醒其已經(jīng)超過了“速率限制”，違反了推特的規(guī)則，查看了過多推文。

人們壓根不知道這是什么意思，推特老板馬斯克站了出來，表示的確是有速率限制，而且宣布：為了解決極端水平的數(shù)據(jù)抓取和系統(tǒng)操縱問題，已驗證、未驗證、新注冊未驗證賬戶每天的瀏覽上限是6000、600和300條推文。

在此之前，馬斯克剛宣布推特開始禁止未登錄的用戶瀏覽內(nèi)容，用戶尚且能接受。限制實錘，用戶麻了，繼而看著這驗證與否的區(qū)別對待，眉毛挑起來了：你個老六該不會是想用這招推行“藍(lán)鳥訂閱”吧？在評論區(qū)，不止一位用戶評論：“現(xiàn)在得用錢制勝了？”

不滿的聲音很大，推特的競品Hive、Mastodon、Tumblr等出現(xiàn)在熱門話題里，一張推特墓碑的梗圖被大量使用。爭議聲中，馬斯克兩次提高標(biāo)準(zhǔn)至驗證用戶10000條瀏覽、未驗證用戶1000條。

一個馬斯克的高仿號調(diào)侃道：“我設(shè)置限制，是因為你們這些推特成癮者需要出去走走。我這是在為世界做好事啊”。這種上價值的思路好，馬斯克反手就是一個轉(zhuǎn)發(fā)，自己還單獨發(fā)了條“去拜訪下你的朋友和家人吧”。

不過玩笑歸玩笑，馬斯克為自己的這次“測試”給出了明確的解釋：應(yīng)對數(shù)據(jù)爬取。用戶的不滿，也在于限流的做法是否有效，而不在數(shù)據(jù)爬取的問題上。

AI初創(chuàng)公司跑來推特“扒數(shù)據(jù)”的情況有多嚴(yán)重呢？馬斯克在一條推文中說，流量激增，推特不得不啟用備用服務(wù)器：“在緊急情況下啟用大量在線服務(wù)器，僅僅是為了給某些AI初創(chuàng)公司高得離譜的估值幫忙，這太令人惱火了。”

在限流風(fēng)波的前一天，Epic Games的CEO蒂姆（Tim Sweeney）還發(fā)推抱怨推特也在建墻，馬斯克回復(fù)：“數(shù)百個（甚至更多）阻止正在極其激進(jìn)地爬取推特數(shù)據(jù)，到了影響用戶體驗的地步。我們應(yīng)該怎么做？我對所有想法都保持開放。”

剛才還在抱怨的蒂姆，很快就給出了認(rèn)真的建議，如在推特的服務(wù)條款中加入禁止數(shù)據(jù)爬取、以信息安全工程保護(hù)平臺，以及針對大規(guī)模濫用推特的公司采取法律行動。

值得注意的是，馬斯克在回復(fù)中提到，“絕對”會對那些竊取數(shù)據(jù)的人采取法律行動：“（樂觀地說）從現(xiàn)在起2到3年，期待在法庭上看到他們。”

不管“為付費訂閱添柴”的猜想是不是以小人之心度了馬斯克之腹，馬斯克高舉用戶隱私大旗之外，多少有可能抱有私心。4月，馬斯克被傳出成立X.AI新人工智能公司，要對抗ChatGPT。如果真的要訓(xùn)練大語言模型，推特的用戶數(shù)據(jù)，當(dāng)然是只給自己用最好。

不論如何，主動給平臺限流都做得出來，馬斯克已經(jīng)做好準(zhǔn)備，要和AI初創(chuàng)公司們硬剛到底了。

二

就在馬斯克重拳出擊給全平臺限流的時候，這場AICG熱潮的“始作俑者”、ChatGPT的造物主OpenAI，正卷入一場集體訴訟中。

這起訴訟在美國加州北區(qū)地方法院發(fā)起，原告16人，均為匿名，均為個人。訴狀很長，足足有157頁，以斯蒂芬·霍金的一句話作為開頭：“強(qiáng)大人工智能的崛起，要么是人類有史以來最好的事，要么是最糟的。”被告除了OpenAI，還有為其注資上百億美元的微軟。

核心指控是，ChatGPT使用從互聯(lián)網(wǎng)上收集的數(shù)據(jù)來“訓(xùn)練其技術(shù)”時，侵犯了“無數(shù)人的版權(quán)和隱私。”

起訴書中稱，OpenAI從互聯(lián)網(wǎng)上秘密抓取3000億字詞，竊聽了“書籍、文章、網(wǎng)站和帖子，包括未經(jīng)同意獲得的個人信息”，違反了隱私法。其中就提到了OpenAI爬取大量網(wǎng)絡(luò)數(shù)據(jù)，包括社交媒體中的數(shù)據(jù)。

他們還指出OpenAI有個專有AI語料庫，積累了大量個人數(shù)據(jù)，包括從Reddit帖子及其鏈接到網(wǎng)站中獲取的數(shù)據(jù)。

這是訓(xùn)練模型方面的指控，此外，原告還稱用戶與OpenAI的產(chǎn)品的互動、在產(chǎn)品中的私人信息，也都被OpenAI非法訪問、大規(guī)模盜用。

這已經(jīng)不是OpenAI第一次在美國面臨集體訴訟。去年11月，就有Github程序員對Github、OpenAI和微軟發(fā)起集體訴訟的事件，指控OpenAI涉嫌違反開源許可，使用他們貢獻(xiàn)的代碼訓(xùn)練專有AI工具GitHub Copilot。

彼時ChatGPT還沒有上線，如今回頭看，AI訓(xùn)練的問題那時就已經(jīng)暴露。如今，最新的集體訴訟針對的是用戶更為廣泛、被侵犯人群也更加廣泛（基本上就是全員受害）的ChatGPT，更重要的是，在AIGC的狂潮之下，任何法律先例都可能影響未來。

代理該案的克拉克森公益律師事務(wù)所（Clarkson）在一封聲明中，將這次的集體訴訟稱作“里程碑式”的聯(lián)邦案件，是對整個人工智能的警告。

從這個角度看，OpenAI肩上的擔(dān)子的確很重。

OpenAI因數(shù)據(jù)抓取和隱私安全已經(jīng)惹上諸多麻煩，平臺上鎖、用戶翻臉都只是冰山一角。

在歐洲，OpenAI已經(jīng)遭到了多個國家的調(diào)查，甚至在今年4月，意大利擔(dān)心ChatGPT會違反歐洲數(shù)據(jù)保護(hù)法，暫時封禁過ChatGPT。

針對整個人工智能領(lǐng)域的監(jiān)管正在推進(jìn)。法國于5月推出人工智能行動計劃，其中在AIGC方面，法國隱私監(jiān)管機(jī)構(gòu)特別關(guān)注一些AI模型從互聯(lián)網(wǎng)上搜集數(shù)據(jù)、建立數(shù)據(jù)集，用來訓(xùn)練大語言模型的做法。

最重磅的是歐盟人工智能監(jiān)管法案（EU AI Act），目前已經(jīng)走向收尾階段。該法案將有可能成為全球AI治理的范本。

三

平臺、用戶、監(jiān)管，三股力量已經(jīng)形成合圍之勢，誓要盡早給AIGC立立規(guī)矩，并且要從大模型訓(xùn)練這個起點開始。

一方面，時間緊迫，AIGC發(fā)展得太快。

馬斯克說“估值高得離譜的AI初創(chuàng)公司”指的是誰，咱也不知道。但這話一出，中箭的確實不少，畢竟現(xiàn)在AIGC領(lǐng)域融資一波接一波，全是熱錢。

在初創(chuàng)公司里，OpenAI估值近300億美元，融資總規(guī)模113億美元，是AIGC里最有錢的；然后是Anthropic，第二有錢，估值超過40億美元。而前幾天才以13億美元融資震驚硅谷的Inflection，估值也已經(jīng)有40億美元，而它成立不過一年多。

大的可能還在后頭。Inflection用的是自家的大語言模型，這次13億美元到手，宣布要搞2.2萬張英偉達(dá)H100芯片，做全球最大的人工智能集群。如此大規(guī)模算力，目標(biāo)參數(shù)量和數(shù)據(jù)集勢必也是驚人的。

另一方面，ChatGPT橫空出世，等它暴露出問題時，想“修補(bǔ)”并不是那么容易。OpenAI的幾代大語言模型，GPT-2數(shù)據(jù)集有40GB文本，GPT-3（也就是ChatGPT發(fā)布時用的模型）訓(xùn)練數(shù)據(jù)有570GB，至于今年才發(fā)布的GPT-4，數(shù)據(jù)集大小壓根沒透露。

海量的數(shù)據(jù)并沒有從一開始就做好記錄。谷歌前研究科學(xué)家尼西亞·桑巴斯萬曾在采訪中表示，科技公司不會記錄它們是如何收集或注釋AI訓(xùn)練數(shù)據(jù)的，甚至不知道數(shù)據(jù)集中到底有什么。

木已成舟的ChatGPT就像一個黑匣子，而且是一個打造在密室里的黑匣子，如今要做透明化、隱私保護(hù)，比如羅列到底爬取了哪些數(shù)據(jù)、闡釋使用過程中會如何使用這些數(shù)據(jù)、應(yīng)用戶要求刪除某條數(shù)據(jù)，其實很難。

互聯(lián)網(wǎng)沖浪人和監(jiān)管死咬OpenAI們，還有一個不容忽視的原因——在社媒發(fā)展壯大的那些年，對個人網(wǎng)絡(luò)數(shù)據(jù)保護(hù)的意識還在襁褓中，待要抗衡時，發(fā)現(xiàn)已錯過太遠(yuǎn)。

當(dāng)扎克伯格2018年首次坐上國會聽證席時，他的社交媒體平臺Facebook已經(jīng)推出了14年。彼時Facebook身陷“劍橋丑聞”，公司首席技術(shù)官稱有8700萬用戶受影響。那也是一次因數(shù)據(jù)抓取釀成的大錯。

等到今年5月阿爾特曼坐上美國國會聽證席，議員頻頻表達(dá)著在社媒時代行動不足的悔恨，意思很明了：這一次，就算不能超前，也至少要跟上AIGC的腳步。

一個接一個的大模型仍然在訓(xùn)練當(dāng)中，數(shù)據(jù)抓取是一根線頭，攥住它才有望理清AIGC的糊涂賬。

參考資料：

1、新浪科技：《馬斯克跟微軟杠上了？Twitter稱微軟非法使用其數(shù)據(jù)》

2、黑馬程序員：《這些程序員把GitHub告了！要求索賠649億》

3、界面新聞：《歐盟AI法案出爐，OpenAI等公司可打幾分，核心爭議點有哪些？》

4、騰訊科技：《對數(shù)據(jù)的渴求正反傷OpenAI？多國指控其違反數(shù)據(jù)保護(hù)法》

5、網(wǎng)易科技：《ChatGPT在意大利恢復(fù)上線但OpenAI的監(jiān)管麻煩才剛剛開始》

編者按：本文轉(zhuǎn)載自微信公眾號：字母榜(ID：wujicaijing)，作者：畢安娣

本文來源字母榜，內(nèi)容僅代表作者本人觀點，不代表前瞻網(wǎng)的立場。本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。（若存在內(nèi)容、版權(quán)或其它問題，請聯(lián)系：service@qianzhan.com）　品牌合作與廣告投放請聯(lián)系：0755-33015062 或 hezuo@qianzhan.com

p5 q0 我要投稿

標(biāo)簽：馬斯克 OpenAI

品牌、內(nèi)容合作請點這里：尋求合作 ››

產(chǎn)業(yè)規(guī)劃
園區(qū)規(guī)劃
產(chǎn)業(yè)招商
可行性研究
低空經(jīng)濟(jì)
高端裝備
生物醫(yī)藥

前瞻經(jīng)濟(jì)學(xué)人

專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者，專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報、產(chǎn)業(yè)升級轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報告等領(lǐng)域解決方案，掃一掃關(guān)注。