數(shù)據(jù)采集標(biāo)注:人工智能產(chǎn)業(yè)落地的「至強(qiáng)」后盾
本文轉(zhuǎn)載自微信公眾號(hào): ToB行業(yè)頭條(ID:wwwqifu),作者:李曉松
這兩年,人工智能越來越火。
大到機(jī)場(chǎng)、火車站、商超、街道上的人臉識(shí)別設(shè)備;小到我們手機(jī)APP的各種算法,以及Siri、小度、小愛等語音助手,都與人工智能相關(guān)。
雖然人工智能應(yīng)用的越來越普及,可我們還是會(huì)經(jīng)常遇到APP推送不精準(zhǔn),語音助手像個(gè)“傻瓜”,人臉識(shí)別系統(tǒng)頻繁出烏龍等現(xiàn)象……
烏龍鬧?。憾髦?ldquo;闖紅燈”。實(shí)際是公交巴士貼著董明珠頭像,剛好被攝像頭拍到,人工智能系統(tǒng)誤以為是董明珠闖了紅燈。
我們暢想的人工智能,是科幻電影中能夠“想我所想”的人工智能。可我們面對(duì)的人工智能,卻是頻繁出錯(cuò),甚至是難以落地的人工智能。
那么,面對(duì)這些問題,我們要如何解決?我們又要做哪些努力,才能讓人工智能更加精準(zhǔn)呢?
01
制約人工智能發(fā)展的要素
總有朋友認(rèn)為,人工智能不準(zhǔn)是因?yàn)橛?xùn)練人工智能的數(shù)據(jù)不準(zhǔn)。其實(shí),這個(gè)觀點(diǎn)說對(duì)也對(duì),但也并非全對(duì)。
數(shù)據(jù)確實(shí)是制約人工智能發(fā)展的重要一環(huán)??芍萍s人工智能發(fā)展的要素并不只有數(shù)據(jù),算法、算力也是極其重要的因素。
如果以一輛汽車來比喻,算法是汽車的設(shè)計(jì)理念,算力更像是汽車的發(fā)動(dòng)機(jī),而數(shù)據(jù)則是驅(qū)動(dòng)騎車前行的燃料。
光有燃料,沒有好的發(fā)動(dòng)機(jī)和設(shè)計(jì),汽車自然跑不快。同樣,光有發(fā)動(dòng)機(jī),沒有燃料,汽車也無法不動(dòng)。
按理說,三位一體的協(xié)同發(fā)展肯定是最好的??僧?dāng)前人工智能公司的現(xiàn)狀卻是:很多公司已經(jīng)具備了先進(jìn)的算法和優(yōu)質(zhì)的硬件,產(chǎn)品不能落地還真是燃料的問題。
Testin有數(shù)總經(jīng)理賈宇航在接受ToB行業(yè)頭條(ID:wwwqifu)采訪時(shí)表示:
“人工智能時(shí)代到來以后,越來越多的產(chǎn)品、APP、硬件成為人工智能落地的載體。在人工智能落地的過程中,很多企業(yè)受制于數(shù)據(jù)難題,在產(chǎn)品迭代、升級(jí)的過程中遇到了較大阻力。”
而關(guān)于人工智能企業(yè)面對(duì)的數(shù)據(jù)難題,賈宇航重點(diǎn)提到了兩個(gè):
很多人工智能企業(yè)沒有數(shù)據(jù)或可用的數(shù)據(jù)實(shí)在太少。這些企業(yè)在數(shù)據(jù)采集環(huán)節(jié),就遇到了大問題。
很多人工智能公司好不容易采集到了大量數(shù)據(jù),卻無法將數(shù)據(jù)標(biāo)注精準(zhǔn),也找不到可靠的、擁有相關(guān)經(jīng)驗(yàn)的人來標(biāo)注。總要面臨數(shù)據(jù)如何篩選、如何使用的難題。
那么,針對(duì)這些問題,人工智能企業(yè)又該怎么辦呢?是否有一種辦法,能夠幫助人工智能企業(yè)解決當(dāng)前的數(shù)據(jù)難題呢?
02
數(shù)據(jù)要如何采集、如何用?
其實(shí)打從人工智能出現(xiàn)的那一天起,數(shù)據(jù)采集、標(biāo)注等問題,就得到了諸多廠商的重視。
早在2005年,亞馬遜就建立了Mechanical Turk論壇,希望通過眾包模式,解決人工智能公司的數(shù)據(jù)處理需求。
但隨著人工智能的逐步發(fā)展,AI落地已經(jīng)成為行業(yè)發(fā)展的一大重要階段,相應(yīng)的數(shù)據(jù)服務(wù)也邁向了場(chǎng)景化以及精細(xì)化時(shí)代。
賈宇航介紹稱,Testin有數(shù)目前主攻自動(dòng)駕駛、銀行、保險(xiǎn)和安防領(lǐng)域,為其提供定制化的數(shù)據(jù)采集、標(biāo)注服務(wù),全方位支持文本、語音、圖像、視頻等各類型數(shù)據(jù)的處理。
“比如自動(dòng)駕駛廠商需要采集司機(jī)的疲勞狀況,卻很難把設(shè)備安裝到大街上的車?yán)锩妗R驗(yàn)檫@樣采集到的數(shù)據(jù)不僅不標(biāo)準(zhǔn),還會(huì)涉及司乘人員的隱私問題。
但Testin有數(shù)卻可以根據(jù)客戶需求,在數(shù)據(jù)采集中心搭建模擬場(chǎng)景,利用專業(yè)的備采人群和軟硬件設(shè)備,采集豐富的樣本信息,滿足客戶的多種需求。”
Testin有數(shù)定制化采集場(chǎng)景示意圖
作為AI數(shù)據(jù)服務(wù)行業(yè)的領(lǐng)航品牌,Testin有數(shù)擁有自建的數(shù)據(jù)基地體系,所有標(biāo)注員統(tǒng)一管理,規(guī)范生產(chǎn),能夠在保證數(shù)據(jù)準(zhǔn)確率的同時(shí),有效保證標(biāo)注作業(yè)的信息流轉(zhuǎn)。
Testin有數(shù)還開發(fā)了自研標(biāo)注平臺(tái),支持標(biāo)注類型定制化開發(fā),讓標(biāo)注類型功能更為全面,保證標(biāo)準(zhǔn)化業(yè)務(wù)可以高效運(yùn)行。
Testin有數(shù)標(biāo)注平臺(tái)示意圖
當(dāng)前,國(guó)內(nèi)很多數(shù)據(jù)標(biāo)注公司,還是典型的勞動(dòng)密集型企業(yè)。這些企業(yè)為了節(jié)省人力成本,還在使用培訓(xùn)半天即可上崗的臨時(shí)工,做的也是數(shù)據(jù)標(biāo)注行業(yè)最簡(jiǎn)單的事情。
可Testin有數(shù)很早就看到了傳統(tǒng)模式的弊端,早已通過采集基地的建立、標(biāo)注平臺(tái)的搭建和職前60天的優(yōu)質(zhì)培訓(xùn),擺脫了標(biāo)注行業(yè)的低端同質(zhì)化競(jìng)爭(zhēng),實(shí)現(xiàn)了技能密集型企業(yè)的轉(zhuǎn)型。
賈宇航始終認(rèn)為:“勞動(dòng)密集型的數(shù)據(jù)服務(wù),過于依賴勞動(dòng)力,企業(yè)天花板較為明顯。這類企業(yè)對(duì)數(shù)據(jù)平臺(tái)的建設(shè)不夠重視,從業(yè)人員培訓(xùn)時(shí)間較短,數(shù)據(jù)標(biāo)注的質(zhì)量一般。
或許腰部公司會(huì)因?yàn)槌杀镜仍颍x擇這類公司的服務(wù),可頭部公司一定會(huì)選擇優(yōu)質(zhì)的數(shù)據(jù)標(biāo)注廠商。因?yàn)橹挥袃?yōu)質(zhì)的數(shù)據(jù)才能催生優(yōu)質(zhì)的人工智能,這是行業(yè)發(fā)展的基本規(guī)律。”
03
高質(zhì)、精準(zhǔn)的數(shù)據(jù)
才是行業(yè)的未來
一個(gè)行業(yè)的成熟,一定離不開行業(yè)內(nèi)成熟企業(yè)的推動(dòng)。人工智能企業(yè)要想快速發(fā)展,必然離不開數(shù)據(jù)采集、標(biāo)注行業(yè)的整體進(jìn)步。
多年以前,我們經(jīng)常會(huì)看到知名人工智能公司把數(shù)據(jù)采集、標(biāo)注的服務(wù)外包給非洲公司,甚至有媒體在探訪非洲數(shù)據(jù)標(biāo)注工廠后感嘆:“貧民為硅谷人工智能打工賺錢。”
其實(shí),數(shù)據(jù)標(biāo)注工廠建立在非洲等欠發(fā)達(dá)地區(qū),就是為了獲取廉價(jià)勞動(dòng)力。正因如此,數(shù)據(jù)服務(wù)也被外界認(rèn)作是人工智能金字塔上最底層的工作。
可金字塔的最底層,雖然不像塔尖那樣耀眼,可底層卻是體積最大、也是支撐金字塔屹立不倒的堅(jiān)實(shí)根基。
在人工智能企業(yè)草莽生長(zhǎng)的階段,地基不牢的企業(yè)尚可借力發(fā)展??僧?dāng)企業(yè)成長(zhǎng)的越來越快,企業(yè)搭建的數(shù)字化尖塔越來越高,根基是否牢靠直接決定了企業(yè)的發(fā)展上限。
這也是為什么,從一開始Testin有數(shù)就對(duì)標(biāo)注人員培訓(xùn)、對(duì)標(biāo)注中心搭建、對(duì)數(shù)據(jù)采集平臺(tái)開發(fā)極為上心的重要原因。
因?yàn)橘Z宇航始終相信,高質(zhì)、精準(zhǔn)的數(shù)據(jù)才是行業(yè)的未來。“當(dāng)一般的數(shù)據(jù)公司還在爭(zhēng)奪地上的‘六便士’時(shí),Testin有數(shù)已經(jīng)奔往了天上的‘月亮’。”
目前,Testin有數(shù)已經(jīng)在華東、華北、華南設(shè)有數(shù)據(jù)交付中心和數(shù)據(jù)采集、標(biāo)注基地,并成功為數(shù)百家企業(yè)提供AI數(shù)據(jù)服務(wù)。
與之相證的是,國(guó)內(nèi)相關(guān)調(diào)研報(bào)告的結(jié)論也一片向好,數(shù)據(jù)標(biāo)注行業(yè)正在穩(wěn)步上行。
據(jù)艾瑞咨詢最新報(bào)告顯示,2018年中國(guó)人工智能基礎(chǔ)數(shù)據(jù)服務(wù)市場(chǎng)規(guī)模為25.86億元,其中數(shù)據(jù)資源定制服務(wù)占比86.2%,行業(yè)年復(fù)合增長(zhǎng)率為23.5%,預(yù)計(jì)2025年市場(chǎng)規(guī)模將突破110億元。
這一片蒸蒸日上的勢(shì)頭,不僅源于飛速發(fā)展的人工智能公司帶來了大量需求,同樣也離不開Testin有數(shù)這些默默耕耘的數(shù)據(jù)服務(wù)廠商,持續(xù)為人工智能行業(yè)提供著燃料。
確實(shí),當(dāng)前的人工智能還存在“不準(zhǔn)”的現(xiàn)象,可我們卻能看到,幾年前,阿爾法狗在圍棋領(lǐng)域完爆人類。而就在過去幾個(gè)月內(nèi),此前發(fā)展了20多年都沒被大眾了解的RPA也突然火了。
為什么阿爾法狗能擊敗人類?為什么RPA突然爆火?這必然離不開人工智能算法的更新演進(jìn)??稍诩夹g(shù)成熟的背后,像Testin有數(shù)這樣提供數(shù)據(jù)采集、標(biāo)注服務(wù)的廠商也是功不可沒。
正是數(shù)據(jù)采集與標(biāo)注的成熟、精準(zhǔn),才能訓(xùn)練出阿爾法狗的精準(zhǔn)算法。正是數(shù)據(jù)行業(yè)的不斷積累,才讓OCR、NLP等人工智能技術(shù)在今年變得成熟,從而推火了沉寂已久的RPA。
誠然,人工智能的前路還無盡漫長(zhǎng),但從以Testin有數(shù)為首的數(shù)據(jù)采集、標(biāo)注廠商的發(fā)展方向來看,我們已經(jīng)看到了行業(yè)未來的藍(lán)圖。
品牌、內(nèi)容合作請(qǐng)點(diǎn)這里:尋求合作 ››
前瞻經(jīng)濟(jì)學(xué)人
專注于中國(guó)各行業(yè)市場(chǎng)分析、未來發(fā)展趨勢(shì)等。掃一掃立即關(guān)注。