端到端最核心的一點(diǎn)在于將自動(dòng)駕駛算法進(jìn)行了全面的AI化,轉(zhuǎn)向了完全的數(shù)據(jù)驅(qū)動(dòng),但這意味著需要更加海量的數(shù)據(jù)進(jìn)行模型的訓(xùn)練。
但對(duì)于到底需要多少數(shù)據(jù)才能訓(xùn)練出一個(gè)完美的自動(dòng)駕駛模型,業(yè)界并沒有一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。之前有報(bào)道稱,特斯拉2024年初的視頻訓(xùn)練片段數(shù)量將近3000萬個(gè)。按照每個(gè)視頻片段30秒、30FPS的幀率、8個(gè)攝像頭計(jì)算,訓(xùn)練圖片數(shù)量高達(dá)220億張。
此外,這種規(guī)模的訓(xùn)練數(shù)據(jù)訓(xùn)練出來的自動(dòng)駕駛系統(tǒng)的等級(jí)仍未達(dá)到L3,自動(dòng)駕駛系統(tǒng)能力每提高一個(gè)等級(jí),需要的訓(xùn)練數(shù)據(jù)量至少會(huì)提升一個(gè)數(shù)量級(jí),也就是說,要達(dá)到L4,至少需要訓(xùn)練幾億個(gè)視頻片段。
端到端雖然強(qiáng)化了數(shù)據(jù)的作用,但大模型的引入?yún)s增加了龐大的數(shù)據(jù)標(biāo)注需求。在基于語言模型的自動(dòng)駕駛大模型中,其輸入是當(dāng)前駕駛場(chǎng)景的圖片,其輸出是各類交通參與者、道路拓?fù)?、交通信?hào)標(biāo)識(shí)的語義信息,這種模型不具備自回歸特性,進(jìn)行有監(jiān)督學(xué)習(xí),其訓(xùn)練需要海量的數(shù)據(jù)標(biāo)注工作。
這引發(fā)了一個(gè)新的問題:如果端到端自動(dòng)駕駛模型的訓(xùn)練還需要繼續(xù)打標(biāo)簽,在源源不斷產(chǎn)生的海量數(shù)據(jù)面前,還如何保證高效訓(xùn)練?這也是一直以來影響端到端進(jìn)一步發(fā)展的最大阻礙。
世界模型實(shí)現(xiàn)從感知到認(rèn)知的躍遷
無論是BEV檢測(cè)的白名單障礙物還是OCC占用網(wǎng)絡(luò)檢測(cè)的通用障礙物,從本質(zhì)上來說,都屬于基于判別式AI實(shí)現(xiàn)的對(duì)分立物體的單獨(dú)感知。
生成式AI大模型具備的超強(qiáng)理解能力使得視覺語言模型、大語言模型、世界模型可以建立對(duì)當(dāng)下場(chǎng)景的整體認(rèn)知,實(shí)現(xiàn)從感知到認(rèn)知的階躍。
舉例來說,BEV可以檢測(cè)到一個(gè)行人,大模型可以通過意圖理解判斷出這是一個(gè)要橫穿馬路的行人。BEV網(wǎng)絡(luò)可以檢測(cè)到前方的一個(gè)車輛,大模型可以更進(jìn)一步,通過長(zhǎng)時(shí)序信息判斷出這是一個(gè)即將減速的車輛。