報(bào)告服務(wù)熱線400-068-7188

大模型攻入自動(dòng)駕駛

分享到:
20 自象限 ? 2023-10-17 14:00:27  來(lái)源:自象限 E2347G0

1

(圖片來(lái)源:攝圖網(wǎng))

作者|羅輯 來(lái)源|自象限(ID:zixiangxian)

“自動(dòng)駕駛的前提是安全與嚴(yán)謹(jǐn),大模型給出'差不多'的結(jié)果是不行的。”

在今年4月初,大模型剛剛問(wèn)世時(shí),一位自動(dòng)駕駛領(lǐng)域的資深投資人向「自象限」表達(dá)了,他對(duì)通用大模型應(yīng)用在自動(dòng)駕駛領(lǐng)域的擔(dān)憂。

不被看好的原因有很多,比如大模型“胡說(shuō)八道”的問(wèn)題,導(dǎo)致大家認(rèn)為它達(dá)不到自動(dòng)駕駛的安全等級(jí)要求;比如大家認(rèn)為大模型解決的是共性推演的問(wèn)題,但自動(dòng)駕駛解決的0.5%的corner case;再比如大模型要在車端落地,需要與結(jié)合前融合算法,對(duì)前端算力的要求會(huì)很高。

總而言之,通用大模型的不確定性和自動(dòng)駕駛的嚴(yán)謹(jǐn)性像一個(gè)硬幣的兩面,落地上也面臨著幾座短期內(nèi)難以翻越的大山。“這會(huì)是整個(gè)體系建設(shè)的問(wèn)題,不是角度算法可以改變的。”這位投資人如此總結(jié)道。

盡管不被看好,但6個(gè)月過(guò)后,大模型還是以一種蠻橫的方式?jīng)_進(jìn)了自動(dòng)駕駛行業(yè)。

打響第一槍的,仍然是特斯拉。今年8月,特斯拉端到端AI自動(dòng)駕駛系統(tǒng)FSD Beta V12首次公開亮相,完全依靠車載攝像頭和神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別道路和交通情況,并做出相應(yīng)的決策。國(guó)內(nèi),自動(dòng)駕駛和大模型公司都開始緊鑼密鼓的布局,9月,華為盤古大模型3.0推出了自動(dòng)駕駛行業(yè)大模型;10月,在毫末第九屆AI Day中,也講解了其身處自動(dòng)駕駛領(lǐng)域?qū)Υ竽P偷囊幌盗刑剿鳌?/p>

從結(jié)果來(lái)看,目前大模型對(duì)自動(dòng)駕駛的改變分為兩個(gè)方向:一是大模型作為工具,輔助自動(dòng)駕駛算法的訓(xùn)練,優(yōu)化過(guò)程;二是大模型作為決策模型,直接駕駛車輛,改變結(jié)果。

透過(guò)國(guó)內(nèi)外的探索,這條看似相悖的技術(shù)路徑似乎開始一步步清晰,那么大模型究竟能給自動(dòng)駕駛帶來(lái)了什么?核心的技術(shù)難題又該如何解決?

大模型,更換自動(dòng)駕駛訓(xùn)練引擎

首先,大模型正在重塑自動(dòng)駕駛的訓(xùn)練過(guò)程。

從大模型被討論的第一天開始,從文本到圖片生成,大家就深刻意識(shí)到大模型在提高工作效率上的巨大潛力。這一點(diǎn),在自動(dòng)駕駛訓(xùn)練上也不例外。

訓(xùn)練自動(dòng)駕駛算法,是一個(gè)漫長(zhǎng)而龐大的工程,從數(shù)據(jù)采集、傳輸、管理;到數(shù)據(jù)清洗、標(biāo)注、準(zhǔn)備,到最后投入到訓(xùn)練自動(dòng)駕駛算法的熔爐當(dāng)中,中間會(huì)涉及到數(shù)十個(gè)環(huán)節(jié)。

而如今困擾自動(dòng)駕駛發(fā)展的核心問(wèn)題也來(lái)自于此,一個(gè)是隨著絕大部分常規(guī)問(wèn)題被解決,有效數(shù)據(jù)的收集難度越來(lái)越大;其次則是隨著數(shù)據(jù)規(guī)模的增加,數(shù)據(jù)處理的成本也越來(lái)越高。

1

▲圖為自動(dòng)駕駛訓(xùn)練過(guò)程

首先是數(shù)據(jù)收集的問(wèn)題。當(dāng)自動(dòng)駕駛走入最后0.5%的corner case階段,場(chǎng)景數(shù)據(jù)在現(xiàn)實(shí)世界就變得可遇不可求。

為了應(yīng)對(duì)這些問(wèn)題,特斯拉、Waymo、Cruise等企業(yè)都在不同程度使用合成數(shù)據(jù)來(lái)模擬真實(shí)世界來(lái)訓(xùn)練自動(dòng)駕駛。

但這種方式也存在一些弊端,比如合成數(shù)據(jù)雖然能輕松生成大量數(shù)據(jù),提高自動(dòng)駕駛訓(xùn)練數(shù)據(jù)的多樣性。但作為人工生成的數(shù)據(jù),合成數(shù)據(jù)并不能完全模擬真實(shí)世界的復(fù)雜和變化。過(guò)度使用合成數(shù)據(jù),會(huì)導(dǎo)致自動(dòng)駕駛出現(xiàn)“紙上談兵”的現(xiàn)象,即在訓(xùn)練時(shí)表現(xiàn)很好,但一上路就不行,這種情況被稱為過(guò)度擬合。

而針對(duì)這樣的問(wèn)題,大模型提供了一種新的解決方案。

比如使用大模型進(jìn)行數(shù)據(jù)生成的技術(shù)——遷移生成。它可以基于一個(gè)真實(shí)的場(chǎng)景,快速生成不同時(shí)間、不同環(huán)境的情況。比如拍攝一張街道春天的照片,大模型可以快速生成這條街道雨天、刮風(fēng)、下雪等不同條件、不同季節(jié)的情況。

這么做的好處在于“可控”,自動(dòng)駕駛訓(xùn)練可以根據(jù)一些特定的需要生成一些特定的場(chǎng)景,而更重要的是,這些場(chǎng)景中包含一些真實(shí)數(shù)據(jù),在增加訓(xùn)練場(chǎng)景豐富性的同時(shí),又可以避免過(guò)度擬合的情況。

目前已經(jīng)有廠商在逐步嘗試,毫末CEO顧維灝在AI Day中便提到了該技術(shù),清華智能產(chǎn)業(yè)研究院(AIR) 提出的自動(dòng)駕駛模型也有類似的設(shè)置,在他們的設(shè)定中,模型會(huì)提出怎樣獲取不同的數(shù)據(jù),包括真實(shí)世界數(shù)據(jù)和仿真數(shù)據(jù)。然后這些數(shù)據(jù)要經(jīng)過(guò)受控管道進(jìn)行清理,再經(jīng)過(guò)感知和決策兩大模型,最終為車輛提供決策。

其次是數(shù)據(jù)標(biāo)注,數(shù)據(jù)標(biāo)注并不是一次性完成的,同一張照片,不同時(shí)期,依據(jù)需要解決問(wèn)題的不同,需要標(biāo)注的東西也不太一樣。

比如一開始需要解決的是車輛識(shí)別的問(wèn)題,那么照片中重點(diǎn)標(biāo)注的是不同的車輛,后來(lái)要解決紅綠燈識(shí)別的問(wèn)題,重點(diǎn)標(biāo)注的可能就是紅綠燈??傊?,數(shù)據(jù)標(biāo)注是一個(gè)反復(fù),且逐步細(xì)化的過(guò)程,因此難度和成本也在持續(xù)增加。

在國(guó)外,特斯拉最早啟動(dòng)數(shù)據(jù)自動(dòng)標(biāo)注,這讓原來(lái)需要幾個(gè)月時(shí)間的工作可以在幾周內(nèi)完成。2022年6月,得益于效率的提升,特斯拉裁掉了其位于加利福尼亞圣馬特奧辦事處的絕大部分?jǐn)?shù)據(jù)標(biāo)注員工。

特斯拉之后,國(guó)內(nèi)自動(dòng)駕駛企業(yè)也開始跟進(jìn),將自動(dòng)標(biāo)注使用到日常訓(xùn)練中。作為特斯拉的”中國(guó)學(xué)徒“,顧維灝介紹了毫末使用大模型進(jìn)行數(shù)據(jù)標(biāo)注的案例。

其運(yùn)用大語(yǔ)言模型和多模態(tài)的能力,通過(guò)將圖文和文圖交叉的特征做匹配的,然后再將其放到大語(yǔ)言模型中,針對(duì)形成于特征空間的搜索(query)特征。在這樣的基礎(chǔ)上,大模型就可以在不需要做太多準(zhǔn)備的情況下,將之前沒(méi)有標(biāo)注過(guò)的,想要標(biāo)注的內(nèi)容標(biāo)注出來(lái)。

整體上,大模型的接入優(yōu)化了自動(dòng)駕駛的訓(xùn)練過(guò)程。

如果將訓(xùn)練自動(dòng)駕駛算法比作是金字塔的修建,那么大模型的加入,就如同將曾經(jīng)依靠人力堆砌的石塊,改換成現(xiàn)代化的起重機(jī),加快了自動(dòng)駕駛的“搭建”進(jìn)程。

大模型,讓自動(dòng)駕駛“長(zhǎng)出腦子”

在自動(dòng)駕駛訓(xùn)練中,大模型就像全職助手一樣不斷提高算法訓(xùn)練的效率。但這也僅僅只是工程上的優(yōu)化,大模型給自動(dòng)駕駛帶來(lái)的,還有更深層次改變。

這個(gè)問(wèn)題要回到自動(dòng)駕駛是如何進(jìn)行工作的。

在大模型出現(xiàn)之前,自動(dòng)駕駛是任務(wù)驅(qū)動(dòng)的。即程序員依據(jù)一些特定的場(chǎng)景,編寫一些解決方案的代碼,當(dāng)車輛在行駛過(guò)程中感知到相應(yīng)的情況,便按照之前設(shè)定好方式處理。

在這個(gè)基礎(chǔ)上,自動(dòng)駕駛的發(fā)展就變成:發(fā)現(xiàn)一個(gè)問(wèn)題,收集一些數(shù)據(jù),然后訓(xùn)練一個(gè)小模型來(lái)解決這個(gè)問(wèn)題,然后再發(fā)現(xiàn)新的問(wèn)題,如此循環(huán)。

但這種模式對(duì)于問(wèn)題的解決具有一定的滯后性,即問(wèn)題要先被發(fā)現(xiàn),然后等一段時(shí)間才能被解決。其次是泛化問(wèn)題,即在同一個(gè)問(wèn)題在夏天解決了并不一定在冬天解決。也正是因?yàn)槿绱耍詣?dòng)駕駛才有解決不完的corner case。

這些問(wèn)題,實(shí)際指向的其實(shí)是傳統(tǒng)自動(dòng)駕駛算法“照本宣科”式的工作模式,并沒(méi)有真正認(rèn)識(shí)世界、理解世界,即自動(dòng)駕駛并沒(méi)有靈魂。

大模型的出現(xiàn)則為這個(gè)問(wèn)題的解決給出了方向,就像大模型讓虛擬人、讓語(yǔ)音助手都長(zhǎng)出“腦子”一樣,大模型也在讓自動(dòng)駕駛長(zhǎng)出“腦子”。

特斯拉的“端到端”技術(shù)又叫作“感知決策一體化”,也就是將“感知”和“決策”融合到一個(gè)模型中,直接對(duì)車下達(dá)指令,控制車輛,這樣輸入傳感器信號(hào)后可以直接輸出車控信號(hào),大大降低了級(jí)聯(lián)誤差的概率,也因此大大提升了系統(tǒng)性能的上限,整體潛力極大。

▲ 圖源馬斯克Twitter

目前國(guó)內(nèi)還未能做到真正的“端到端”,比如毫末DriveGPT仍然分為感知大模型和認(rèn)知大模型兩部分。

感知大模型除了要根據(jù)車端輸入的信號(hào)做三維重建,還要加上時(shí)序特征形成一個(gè)四維空間。在此基礎(chǔ)上,毫末引入多模態(tài)大模型,多模態(tài)大模型已經(jīng)做了許多文本和對(duì)齊的工作,這個(gè)時(shí)候再和4D語(yǔ)義空間做對(duì)齊,就可以把自動(dòng)駕駛傳感器看到的這些東西全部語(yǔ)義化,這樣就形成了通用的,識(shí)別萬(wàn)物的能力。

而有了這樣的能力之后,結(jié)合認(rèn)知大模型就可以結(jié)合駕駛時(shí)的信息和行駛目標(biāo),比如直行、變道、左轉(zhuǎn)等信息,給出相應(yīng)的駕駛決策和駕駛解釋,然后大模型將其轉(zhuǎn)化為自動(dòng)駕駛的語(yǔ)言,通過(guò)Drive Prompt和自動(dòng)駕駛系統(tǒng)做交互。

本質(zhì)上,大模型就像是自動(dòng)駕駛的“領(lǐng)航員”和“翻譯官”,它理解駕駛的目標(biāo)和意圖,它識(shí)別和感知環(huán)境,然后做出決策并將其翻譯成自動(dòng)駕駛的語(yǔ)言,向自動(dòng)駕駛系統(tǒng)下達(dá)合適的指令。

當(dāng)然,從人的角度來(lái)講,駕駛車輛的過(guò)程需要的除了識(shí)別萬(wàn)物,還有對(duì)環(huán)境中所有物體運(yùn)動(dòng)方向的預(yù)判,這樣才能在面對(duì)復(fù)雜交通環(huán)境時(shí)提前做出反應(yīng)。

大模型同樣對(duì)自動(dòng)駕駛帶來(lái)了這方面的改進(jìn)。

2022年,特斯拉在年底的AI Day上就曾提出過(guò)一個(gè)名叫交互搜索(Interaction Search)的規(guī)劃模型,其主要由樹搜索,神經(jīng)網(wǎng)絡(luò)軌跡規(guī)劃和軌跡打分三部分組成,可以有效預(yù)測(cè)道路交通參與主體的行為軌跡。

從這可以看到,自動(dòng)駕駛的決策已經(jīng)從之前,依靠單一信息進(jìn)行分布決策,變成了多種信息匯總之后的統(tǒng)一決策。

▲ 自動(dòng)駕駛的決策路徑

即大模型的決策越來(lái)越像是一個(gè)整體。

目前生成未來(lái)世界這項(xiàng)技術(shù)可以根據(jù)當(dāng)前的視頻、圖片,生成未來(lái)2~5秒的情況,其預(yù)測(cè)2s后準(zhǔn)確率達(dá)到85%,這可以讓AI對(duì)未來(lái)有一些預(yù)判。同時(shí),預(yù)測(cè)未來(lái)的技術(shù)也可以用在自動(dòng)駕駛訓(xùn)練上,比如可以生成未來(lái)的圖片,然后基于真實(shí)圖片和生成的未來(lái)的圖片再進(jìn)行自監(jiān)督學(xué)習(xí),以此來(lái)提升整個(gè)視覺(jué)大模型識(shí)別的判斷的能力。

它讓自動(dòng)駕駛越來(lái)越成為一個(gè)“整體”,正如清華大學(xué)智能產(chǎn)業(yè)研究院院長(zhǎng)張亞勤說(shuō)的那樣,“AI 大模型帶來(lái)了從判別式 AI 到生成式 AI 的新技術(shù)范式變革,自動(dòng)駕駛達(dá)到最后的安全、可靠階段一定是端到端方式實(shí)現(xiàn)。”

自動(dòng)駕駛的底層進(jìn)化

成為“整體”,自動(dòng)駕駛中關(guān)于這個(gè)的討論其實(shí)并不是在大模型熱度起來(lái)之后才開始的。

2022年,當(dāng)關(guān)于自動(dòng)駕駛的討論還聚焦在芯片和電子電氣架構(gòu)的時(shí)候,全球著名的汽車零部件供應(yīng)商博世曾提出,汽車電子電氣架構(gòu)將從分布式向域集中式和中央計(jì)算過(guò)渡。

早期的汽車電子電氣架構(gòu)是以ECU(Electronic Control Unit 電子控制單元)為主,一輛汽車通常有30到100個(gè)ECU不等,分別控制汽車的引擎、變速器、制動(dòng)等等功能。隨著汽車智能化的進(jìn)程,相關(guān)功能的ECU逐漸被整合成域控制器,目前智能汽車通常有動(dòng)力域、底盤域、車身域、座艙域和自動(dòng)駕駛域五個(gè)。

在這個(gè)基礎(chǔ)上,智能汽車的電氣架構(gòu)還在向一個(gè)“整體”演變,最終將會(huì)形成由一個(gè)統(tǒng)一中央計(jì)算單元控制的形式。2016年,特斯拉發(fā)布的Model 3實(shí)現(xiàn)了中央域控制架構(gòu)的雛形,當(dāng)時(shí)被行業(yè)認(rèn)為在電子電氣架構(gòu)方面領(lǐng)先傳統(tǒng)車企6年以上。

從“散裝”到“整體”,這是智能汽車硬件層面的變化,這種變化也推動(dòng)著自動(dòng)駕駛軟件層面向一個(gè)“整體”發(fā)展,而契機(jī)就是大模型。

關(guān)于自動(dòng)駕駛與大模型,張亞勤提到,“自動(dòng)駕駛不是一個(gè)模型,而是多個(gè)模型的組合。”這其實(shí)正好對(duì)應(yīng)智能汽車硬件域控制器的發(fā)展階段。

這也是華為盤古大模型3.0的思路,華為云EI服務(wù)產(chǎn)品部部長(zhǎng)尤鵬認(rèn)為,通過(guò)數(shù)智融合架構(gòu)打破數(shù)據(jù)、AI資源管理邊界,在一個(gè)平臺(tái)即可完成開發(fā)、測(cè)試、交付上線工作,讓業(yè)務(wù)創(chuàng)新提效2倍,實(shí)現(xiàn)數(shù)據(jù)加速;借助盤古大模型在認(rèn)知、感知、決策、優(yōu)化等全領(lǐng)域的能力,車企可以快速基于盤古訓(xùn)練出自己需要的模型,實(shí)現(xiàn)算法加速;同時(shí),華為還提供底層昇騰算力平臺(tái),解決自動(dòng)駕駛對(duì)算力的高需求,做到千卡訓(xùn)練數(shù)月不中斷,打通“全鏈路”,實(shí)現(xiàn)算力加速。

“全鏈路的模型化是3.0時(shí)代的一個(gè)重要的演進(jìn)思路,最終演變成端到端的大模型。”顧維灝說(shuō)。

而一旦完成了全鏈路的打通,這樣的改變帶來(lái)的將是大范圍且高速迭代。正是因?yàn)?ldquo;端到端”技術(shù),馬斯克曾放出豪言“將可能在今年年底實(shí)現(xiàn)完全的自動(dòng)駕駛”。這句話雖然不排除馬斯克吹牛的成分,但我們也可以從中看出“端到端”技術(shù)的巨大潛力。

總的而言,對(duì)于自動(dòng)駕駛來(lái)說(shuō),大模型并不是一種決策方式,也不單單是指一種技術(shù),而更應(yīng)該是自動(dòng)駕駛發(fā)展的一種最終形態(tài)。

當(dāng)然,雖然大模型給自動(dòng)駕駛的落地帶來(lái)了巨大的想象力,但實(shí)際的應(yīng)用和落地過(guò)程仍然面臨許多問(wèn)題。

比如最直接的問(wèn)題就是如何將云端大模型的能力應(yīng)用到車端。

目前行業(yè)普遍應(yīng)用的方式有三種:

第一種是將大模型蒸餾到小模型,應(yīng)用到車端。這具體又分為兩種路線,一種是通過(guò)大模型給數(shù)據(jù)打標(biāo)簽,監(jiān)督小模型學(xué)習(xí);另一種是將大模型上的Feature map 和小模型上的Feature map進(jìn)行對(duì)齊,然后來(lái)完成小模型能力的提升。

從毫末公布的工作效率來(lái)看,一個(gè)模型的蒸餾需要好幾個(gè)月,但能夠幫助自動(dòng)駕駛車端模型在個(gè)別任務(wù)上的感知指標(biāo)提升5%。

第二種是在云端通過(guò)大模型構(gòu)建一種能力,然后再通過(guò)減脂、蒸餾等方式將大模型的能力蒸餾到車端的小模型上,來(lái)完成車端小模型的進(jìn)步。

第三種則是直接使用云端大模型。畢竟雖然云端傳輸會(huì)面臨信號(hào)、安全、延遲等問(wèn)題的困擾,但也并不意味著所有決策都需要在車端完成。云端大模型具有更強(qiáng)的泛化能力和解釋能力,對(duì)于任務(wù)實(shí)時(shí)性和網(wǎng)絡(luò)信號(hào)較好的地方,也存在可能讓車端的一些通信和云端大模型進(jìn)行交流,然后讓云端大模型完成車端工作的情況。

除了從將大模型運(yùn)用到車端之外,大模型指導(dǎo)的自動(dòng)駕駛還有許多人類生活的常識(shí)需要學(xué)習(xí)。比如路沿的方向是不是能走,面臨多個(gè)路口的時(shí)候各個(gè)方向是不是一定按照車道線走,這些在實(shí)際交通實(shí)踐中約定俗成的東西大模型還無(wú)法掌握。

“現(xiàn)在解決這些問(wèn)題就需要加許多約束,而一旦加約束,這個(gè)系統(tǒng)就變得不聰明了。”顧維灝提出了其中的邏輯悖論。

所以如何去解決這些問(wèn)題,又如何發(fā)揮大模型的優(yōu)勢(shì)成為未來(lái)很長(zhǎng)時(shí)間自動(dòng)駕駛的考題,畢竟當(dāng)前大模型對(duì)于自動(dòng)駕駛的改變,也只是第一聲槍響而已。

編者按:本文轉(zhuǎn)載自微信公眾號(hào):自象限(ID:zixiangxian),作者:羅輯

本文來(lái)源自象限,內(nèi)容僅代表作者本人觀點(diǎn),不代表前瞻網(wǎng)的立場(chǎng)。本站只提供參考并不構(gòu)成任何投資及應(yīng)用建議。(若存在內(nèi)容、版權(quán)或其它問(wèn)題,請(qǐng)聯(lián)系:service@qianzhan.com) 品牌合作與廣告投放請(qǐng)聯(lián)系:0755-33015062 或 hezuo@qianzhan.com

p50 q0 我要投稿

分享:
標(biāo)簽: 大模型 自動(dòng)駕駛

品牌、內(nèi)容合作請(qǐng)點(diǎn)這里:尋求合作 ››

前瞻經(jīng)濟(jì)學(xué)人

專注于中國(guó)各行業(yè)市場(chǎng)分析、未來(lái)發(fā)展趨勢(shì)等。掃一掃立即關(guān)注。

前瞻產(chǎn)業(yè)研究院

中國(guó)產(chǎn)業(yè)咨詢領(lǐng)導(dǎo)者,專業(yè)提供產(chǎn)業(yè)規(guī)劃、產(chǎn)業(yè)申報(bào)、產(chǎn)業(yè)升級(jí)轉(zhuǎn)型、產(chǎn)業(yè)園區(qū)規(guī)劃、可行性報(bào)告等領(lǐng)域解決方案,掃一掃關(guān)注。

前瞻經(jīng)濟(jì)學(xué)人App二維碼

掃一掃下載APP

與資深行業(yè)研究員/經(jīng)濟(jì)學(xué)家互動(dòng)交流讓您成為更懂趨勢(shì)的人

研究員周關(guān)注榜

企查貓(企業(yè)查詢寶)App
×

掃一掃
下載《前瞻經(jīng)濟(jì)學(xué)人》APP提問(wèn)

 
在線咨詢
×
在線咨詢

項(xiàng)目熱線 0755-33015070

AAPP
前瞻經(jīng)濟(jì)學(xué)人APP下載二維碼

下載前瞻經(jīng)濟(jì)學(xué)人APP

關(guān)注我們
前瞻產(chǎn)業(yè)研究院微信號(hào)

掃一掃關(guān)注我們

我要投稿

×
J