當前位置：前瞻產(chǎn)業(yè)研究院 ? 經(jīng)濟學人 ? 觀察家專欄

AI數(shù)據(jù)告急，大廠盯上廉價年輕人

分享到：

字母榜 ? 2024-09-03 18:04:18 　來源：字母榜　E6100G0

作者|馬舒葉來源|字母榜(ID：wujicaijing)

為了拿到新數(shù)據(jù)、訓練AI大模型，字節(jié)等互聯(lián)網(wǎng)大廠正在親自下場，以單次300元不等的價格招募“AI錄音員”，定制語料庫。

坐落于北京大鐘寺的字節(jié)辦公樓，集中了字節(jié)的抖音業(yè)務(wù)團隊和火山引擎業(yè)務(wù)團隊，從年初便開始招募素人為豆包大模型錄音。兩人結(jié)組、單次3小時，包括80分鐘的自由聊天，有提示詞的60組對話，單次結(jié)算金額為300元。

長達3小時的錄音，有至少2名字節(jié)員工全程陪同。“對話不能水時長，要有內(nèi)容和信息，質(zhì)量太差會酌情扣款”，“不能修改提示詞，大模型理解不了”。從晚上6點到9點，字節(jié)員工在錄制過程中的指令，則更多透露著對于錄音質(zhì)量的關(guān)注。

實際上，成都、太原、貴州等二線城市，早已成了字節(jié)、百度、阿里等大廠的AI數(shù)據(jù)外包之城。“去年，數(shù)據(jù)標注、方言朗讀，?？粕湍茏觥，F(xiàn)在招的都是211、985的實習生帶外包。”某大模型產(chǎn)品經(jīng)理表示。

在9月剛剛推出視頻大模型的MiniMax，其創(chuàng)始人閆俊杰告訴字母榜，在上海，除了語料公司的高質(zhì)量數(shù)據(jù)之外，MiniMax也會采購一些平臺化數(shù)據(jù)。

數(shù)據(jù)、算法和算力是AI大模型的三大支柱，其中數(shù)據(jù)是大模型進行訓練的根基。但由于互聯(lián)網(wǎng)數(shù)據(jù)散布在不同平臺，并被重重壁壘所環(huán)繞，AI大模型可以用來訓練的公開數(shù)據(jù)正在走向枯竭。

6月，研究機構(gòu)Epoch AI發(fā)布了一項新研究預測，可用于AI語言模型公開訓練的數(shù)據(jù)，將在2026年到2032年間，被科技公司耗盡。而早在2023年5月，OpenAI首席執(zhí)行官阿爾特曼便公開承認，AI公司在不久的將來會耗盡互聯(lián)網(wǎng)上所有的數(shù)據(jù)。

如何尋找高質(zhì)量的新數(shù)據(jù)“喂養(yǎng)”大模型，成了所有AI大模型團隊的共同難題。

由于存在擅自使用第三方數(shù)據(jù)的嫌疑，一些大公司屢屢陷入糾紛。8月，OpenAI被超過100位YouTube主播集體訴訟，指控其擅自轉(zhuǎn)錄了數(shù)百萬個YouTube 視頻來訓練大模型。英偉達、蘋果、Anthropic等巨頭也涉及其中。

對于大廠而言，擁有自己的閉源高質(zhì)量數(shù)據(jù)，才能保證喂養(yǎng)大模型的數(shù)據(jù)時效性和質(zhì)量。而跳過品控不穩(wěn)定的第三方平臺，試圖親自下場為AI寫“劇本”，或許是大模型廠商們的一條新路子。

一

今年初，在小紅書等平臺上，悄悄出現(xiàn)了標價300元一次的AI錄音兼職。

相比起B(yǎng)OSS直聘等平臺30-55元時薪的AI錄音兼職，300元單次、錄制地在北京大鐘寺的所謂“頭部大廠錄音兼職”顯得頗具誘惑力。

8月，通過微信被拉到錄音群內(nèi)時，字母榜（ID: wujicaijing）發(fā)現(xiàn)群內(nèi)已經(jīng)有了200多名等候錄音的人。由于規(guī)定為2人一組錄制對話，時間長達3小時，進群后，“找搭子”“有人和我一起錄嗎？”的微信消息彈出的最多。

而實際上，300元一次，做AI錄音員，“給AI寫劇本”并不輕松。

首先在錄音前，所有人都必須上傳一段2-3分鐘的對話錄音做“樣音”，字節(jié)的審核人員要通過樣音的效果來決定是否通知兼職錄音。而這個過程會有3名員工負責審核，其中2名員工審核都通過，才能直接預約錄音時間，如果不通過，還有交叉審核。

在樣音二審過后，張雪在提交樣音的第二周預約了晚上6-9點的錄音時間。而在群聊內(nèi)，不少人都被卡在了樣音環(huán)節(jié)，“審核老師喜歡能聊的，愛聊的。”情緒高昂的對話，內(nèi)容有主題，讓更多的人卡在了篩選的第一道門檻。

圖注：大鐘寺錄音群

圖源：字母榜截圖

錄制當晚，張雪隔著錄音室的透明玻璃坐在椅子上，調(diào)節(jié)到語音能夠被清晰錄入的最佳位置，通過耳機收聽字節(jié)員工的指令。

第一個環(huán)節(jié)，就是兩人80分鐘的無主題自由聊天。而字節(jié)人員的要求，則是聊天不能是“片湯話”，要有內(nèi)容，同時每個話題都不能超過10分鐘，并且不能出現(xiàn)大段大段的獨白，要保證是相對平均的對話狀態(tài)。

張雪和搭檔在錄音室內(nèi)隔著巨大的頭麥對談，盡量不停頓地談話80分鐘。同時，還要盡量克制身體不能亂動，發(fā)出咳嗽聲、笑聲等擾亂錄音質(zhì)量的聲音。

為了保證語音質(zhì)量，字節(jié)人員通過耳機不時插入，提示出現(xiàn)了雜音要重新錄制，或者聊天“不自然，引導痕跡過重”，也要重新錄制。高質(zhì)量語音的標準是聊天自然、話題連續(xù)，情緒積極但不能搶話，還要有內(nèi)容、不流水賬。經(jīng)過反復重調(diào)，第一個環(huán)節(jié)就花費了近2個小時的時間。

而到了第二個環(huán)節(jié)，要錄制有提示詞的60組對話。盡管有了劇本可供參考，但作為AI錄音員，張雪不僅要根據(jù)情境編對話，還要保證嚴格的對話模式，即上一組對話是A結(jié)束收尾，那么下一組對話必須由B開始。

同時，為了適應(yīng)大模型的調(diào)試需求，每一次的指令都必須清晰明確地說出提示詞，“可以詳細一些嗎？可以更詳細一些嗎？可以再詳細一些嗎？”而在耳機內(nèi)，字節(jié)人員也明確表示，劇本都可以改，但只有提示詞不能動，換個說法，AI就可能難以識別。

為了保證錄音質(zhì)量，錄音不清晰、吞字或者情緒不足，都會重新錄制。等錄制結(jié)束，張雪離開大鐘寺，時間已經(jīng)走到了晚上近10點。而一次3小時的錄音，字節(jié)人員一天要錄制3場，每周的日程幾乎都是滿的。

除了北京，字節(jié)已經(jīng)在上海、杭州、重慶、南京、成都、天津等多個城市招募錄音員。

二

對于渴求新數(shù)據(jù)的大模型廠商們來說，“砸錢拿數(shù)據(jù)”的操作并不新奇。

2023年，隨著AI大模型成為新風口，大廠們不僅直接通過第三方公司購買數(shù)據(jù)，也創(chuàng)造出了“大數(shù)據(jù)標注師”、“AI編輯”等外包崗位。

2023年，小語種專業(yè)的阿琳，在考研期間就通過BOSS直聘等網(wǎng)站，開始為大模型“打工”。

通過一家叫做“X數(shù)據(jù)”的公司，阿霖為大模型圖片識別的文字內(nèi)容做驗收，即檢驗大模型圖片識別后的小語種文字是否與圖片一致。按照“一個詞或一句話算一個核算框，一個框算1毛錢”的價格，核算幾百條，阿霖一次能賺幾十元。

到了今年，阿霖同樣通過第三方的數(shù)據(jù)公司接單，做翻譯類的 AI 數(shù)據(jù)標注，價格漲成了1元多一條。但要人工判斷大模型翻譯出的法語等小語種是否準確，標注員不僅要找出錯誤之處，還要用不同的顏色，對5-6個大模型的翻譯內(nèi)容進行標注。“有時看一條得花10-15分鐘”。

為AI打工之后，阿霖也發(fā)現(xiàn)，這些大模型，一旦脫離了原本小語種的教科書語料庫，對于社交平臺新的用詞，或者小眾人群的慣用詞，即自身的數(shù)據(jù)庫沒有收錄，大模型就開始降智，“受限于版權(quán)，學不到新的文本內(nèi)容，翻譯效果也受影響。”

除了第三方外包公司，大廠也建立起了自己的數(shù)據(jù)基地。

例如，百度的數(shù)據(jù)基地分布在如南昌、陽泉、太原、貴州等非一線城市，并在這些城市完成數(shù)據(jù)標注、方言朗讀等數(shù)據(jù)的采集，只需“招一些當?shù)氐膶？粕?，會操作電腦就行。月工資也往往在3000-5000元之間。”美團也早就有了自己的駐廠AI訓練師。

不過，相比起舍得砸錢的大廠，大模型四小龍們想要拿到高質(zhì)量數(shù)據(jù)，難度高了不少。

“核心的閉源高質(zhì)量數(shù)據(jù)，往往都已經(jīng)被大廠壟斷，AI創(chuàng)業(yè)公司，甚至是AI四小龍，都可能只能拿到邊緣數(shù)據(jù)。”某大模型廠商的算法人員Leo告訴字母榜。

由于高質(zhì)量數(shù)據(jù)能夠顯著提升模型效果，因此，在開源的公開數(shù)據(jù)數(shù)據(jù)之外，大模型廠商們?yōu)榱藢崿F(xiàn)技術(shù)迭代，需要更高質(zhì)量的數(shù)據(jù)完成訓練。但這些數(shù)據(jù)往往被大公司把握，如國內(nèi)的新聞數(shù)據(jù)掌握在騰訊、字節(jié)等大廠內(nèi)部，海外則由Common Crawl、GDELT、The Pile等占據(jù)。

在海外，即便是YouTube，也在6月底宣布，將向頂級唱片公司提供許可協(xié)議，以換取版權(quán)音樂用于訓練。OpenAI 一直在與 Politico、《大西洋月刊》、《時代》、《金融時報》等新聞出版商達成付費協(xié)議，使用并引用它們的新聞資料。

當關(guān)鍵數(shù)據(jù)主要掌握在“渠道方”內(nèi)部，比如騰訊、字節(jié)和Meta等公司，關(guān)鍵用戶數(shù)據(jù)早在移動互聯(lián)網(wǎng)時代被瓜分完畢，要想實現(xiàn)技術(shù)突圍，AI四小龍首先就得交一筆不小的“數(shù)據(jù)費”。

三

對于廠商們來說，行至大模型創(chuàng)業(yè)下半場，“大數(shù)據(jù)幻覺”也是大模型集體降智、測不出9.11和9.9哪個大的原因之一。

當字母榜在MiniMax的海螺AI內(nèi)輸入“一個小女孩懷里抱著一只布偶貓”，耗時2分鐘，生成的6秒視頻內(nèi)，小女孩抱貓咪的手指細節(jié)豐富，只是懷里抱著的，并非是一只布偶貓。

面對生成結(jié)果，MiniMax的視頻大模型員工解釋，“這是因為用于訓練大模型的數(shù)據(jù)，在貓咪的綁定圖片里，并沒有布偶貓。”

當模型生成的內(nèi)容與現(xiàn)實世界事實或用戶輸入不一致，即大模型出現(xiàn)幻覺，開始“胡說八道”。對于渴望新用戶的大模型廠商而言，生成效果顯然決定了產(chǎn)品是否有機會出圈。

“輸入的指令是提取8月所有娛樂新聞，結(jié)果AI生成的是2019年8月的娛樂新聞內(nèi)容。”在使用某頭部大模型產(chǎn)品時，忠實用戶孔昉已經(jīng)抓到了好幾次AI“胡言亂語”的瞬間，或是編纂出根本不存在的引用文獻，或是不能理解近兩年的新概念，這讓孔昉對大模型產(chǎn)生了信任危機。

現(xiàn)在，孔昉會同時用2-3個不同廠商的大模型“跑”同一個問題，然后交叉對比，對于時間、數(shù)量、文獻等關(guān)鍵信息，也會通過搜索引擎二次確認，“現(xiàn)在AI生成很像抽卡，效果不可控，而且還容易智障。”孔昉無奈道。

而高質(zhì)量數(shù)據(jù)或?qū)⒅饾u耗盡，想要解決“大模型幻覺”問題，拿什么數(shù)據(jù)來“喂養(yǎng)”大模型，顯然頗為關(guān)鍵。

某接近百度的人士告訴字母榜，大模型廠商們都會通過三方公司直接購買數(shù)據(jù)，省時省力但并“不省事”，就是因為購買來的數(shù)據(jù)，無論是文本、錄音還是視頻，質(zhì)量都是不可控的。

對于積極發(fā)展B端客戶的頭部大模型而言，針對某個客戶，更個性化地定制大模型成為如今大廠AI業(yè)務(wù)主要的收入來源。但想要訓練出這樣個性化的模型，就需要相應(yīng)高標準篩選下的數(shù)據(jù)來“喂養(yǎng)”，甚至根據(jù)不同階段大模型的學習效果，進行數(shù)據(jù)需求的調(diào)控，“不是隨便買一堆語音來，大模型就能學會的”。

在某三方數(shù)據(jù)工作做過AI翻譯的阿霖也發(fā)現(xiàn)，“作為提供數(shù)據(jù)的甲方，她所在的公司似乎并不真的關(guān)心大模型生成的語音質(zhì)量。”

對于專攻法語、西班牙語等小語種的阿霖來說，她需要為甲方同時對比5-6個大模型將小語種語音翻譯成文字的生成效果，但只需要粗略得打分，對于生成的5-6份文字，到底有哪些細節(jié)的語言差異，能夠如何改進，三方公司并不會詢問，“漠不關(guān)心”。

而缺乏高質(zhì)量數(shù)據(jù)，或許也正是不少用戶表示“用哪家的大模型生成的內(nèi)容都差不多”的原因，也正是用戶一旦“一家大模型收費，就直接換另一家”的根因。

對于用戶而言，宣稱追趕OpenAI，在技術(shù)上持續(xù)迭代的國產(chǎn)大模型，或許并無實質(zhì)差異，也談不上成為忠誠用戶，這也給急著商業(yè)化的大模型廠商們蒙上了一層淡淡的陰影。

因此，即便親自下場“為AI編劇本”費時費力又費錢，字節(jié)也趟出了一條新路子。而可以預見的是，為了解決商業(yè)化和用戶拉新的關(guān)鍵問題，大手筆咬牙“買數(shù)據(jù)”，恐怕將成為大模型廠商們的新賽點。

（文中阿霖、孔昉、張雪為化名）

編者按：本文轉(zhuǎn)載自微信公眾號：字母榜(ID：wujicaijing)，作者：馬舒葉

本文來源字母榜，內(nèi)容僅代表作者本人觀點，不代表前瞻網(wǎng)的立場。本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。（若存在內(nèi)容、版權(quán)或其它問題，請聯(lián)系：service@qianzhan.com）　品牌合作與廣告投放請聯(lián)系：0755-33015062 或 hezuo@qianzhan.com

p44 q0 我要投稿

標簽： AI數(shù)據(jù) 年輕人

品牌、內(nèi)容合作請點這里：尋求合作 ››

產(chǎn)業(yè)規(guī)劃
園區(qū)規(guī)劃
產(chǎn)業(yè)招商
可行性研究
低空經(jīng)濟
高端裝備
生物醫(yī)藥

前瞻經(jīng)濟學人

專注于中國各行業(yè)市場分析、未來發(fā)展趨勢等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國產(chǎn)業(yè)咨詢領(lǐng)導者，專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報、產(chǎn)業(yè)升級轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報告等領(lǐng)域解決方案，掃一掃關(guān)注。