“VLA模型是相對傻瓜式的架構(gòu)。”2025年8月9日,在北京舉辦的2025世界機器人大會上,宇樹科技的創(chuàng)始人、CEO兼CTO王興興在演講中這樣說道。
“VLA模型是相對傻瓜式的架構(gòu)?!?/p>
2025年8月9日,在北京舉辦的2025世界機器人大會上,宇樹科技的創(chuàng)始人、CEO兼CTO王興興在演講中這樣說道。
盡管他是針對具身智能大模型發(fā)表這一看法的,但對于當(dāng)前智能駕駛最熱門模型方向,不得不讓人有些錯愕。
包括極佳視界的CEO黃冠也在吐槽他的觀點“太業(yè)余”。
王興興認(rèn)為,世界模型可能是更好的技術(shù)方向。不過,短期的未來2~5年,“最大的肯定還是一個端到端的具身智能AI模型”。
大會上,他從核心瓶頸、新興技術(shù)引擎及未來技術(shù)重心三個方面,對具身智能機器人的發(fā)展態(tài)勢進行梳理與分析。我們不妨看看,這位大紅人的觀點,有什么啟發(fā)。
談及機器人未大規(guī)模應(yīng)用的原因,很多人誤認(rèn)為是硬件性能不足或成本過高。但王興興指出,當(dāng)前機器人硬件(包括人形機器人的靈巧手、整機等)已基本夠用。
從技術(shù)層面而言,人形機器人的硬件,諸如靈巧手和整機等,已足夠滿足基本需求,盡管在工程實施上仍存在諸多挑戰(zhàn),但已能夠支撐基礎(chǔ)功能的實現(xiàn)。
他認(rèn)為,限制其大規(guī)模應(yīng)用的核心瓶頸,在于具身智能的AI大模型尚未成熟。
王興興認(rèn)為,目前的機器人大模型(具身智能)發(fā)展階段,類似ChatGPT發(fā)布前的1~3年,即業(yè)界已明確方向和技術(shù)路線,但尚未突破關(guān)鍵臨界點。
在王興興看來,之所以沒達(dá)到關(guān)鍵臨界點,主要是由于行業(yè)對“數(shù)據(jù)”的關(guān)注度過高,卻忽視了模型本身的問題。
王興興認(rèn)為,具身智能發(fā)展的關(guān)鍵問題在于模型架構(gòu)不夠完善、缺乏統(tǒng)一性、泛用性,導(dǎo)致能力受限,而且數(shù)據(jù)還不能完全利用起來。
以當(dāng)前較受關(guān)注的VLA模型為例,王興興認(rèn)為其是“相對傻瓜式的架構(gòu)”,其在真實世界交互中,對數(shù)據(jù)質(zhì)量的依賴過高,但適應(yīng)性不足。因此,他對VLA模型的應(yīng)用前景持懷疑態(tài)度。
此外,“VLA模型+RL訓(xùn)練”也是行業(yè)常見的優(yōu)化思路,但他認(rèn)為,實踐表明折讓仍然不夠?!澳P图軜?gòu)必須進一步升級,不能停留在簡單組合層面。”王興興這樣說道。
在王興興看來,另一個限制發(fā)展因素是“RL Scaling law(縮放定律)”的缺失,這導(dǎo)致機器人尚未解決“從零開始”的魔咒。王興興認(rèn)為,目前機器人在學(xué)習(xí)新任務(wù)時,例如學(xué)習(xí)一支新的舞蹈或完成一項新的工作,往往需要從零開始訓(xùn)練,這導(dǎo)致了訓(xùn)練效率的顯著低下。這是由于機器人控制中“RL Scaling law(縮放定律)” 的缺失造成的。
在王興興看來,具身智能的理想狀態(tài)是“新任務(wù)訓(xùn)練基于舊有基礎(chǔ),速度越來越快、效果越來越好”。這一規(guī)律在語言模型中已得到充分驗證,而在機器人運動控制領(lǐng)域,尚處于起步階段,不過展現(xiàn)出巨大的潛力,是值得行業(yè)深入探索的關(guān)鍵領(lǐng)域。
既然VLA模型模型還不足夠優(yōu)秀,那么什么模型才是方向呢?
王興興認(rèn)為,現(xiàn)階段看視頻生成模型的路線可能比VLA模型更快,收斂概率更大。
其核心邏輯在于:利用視頻生成模型預(yù)先“模擬生成機器人動作序列的視頻”,進而直接指導(dǎo)實體機器人執(zhí)行相應(yīng)動作。例如,若指令為“整理房間”,模型可先生成機器人整理房間的虛擬視頻,再將視頻中的動作轉(zhuǎn)化為實體機器人的控制信號。
不過,王興興指出,這一路線也存在一個現(xiàn)實問題:當(dāng)前視頻生成模型過度關(guān)注“視頻質(zhì)量”,導(dǎo)致GPU消耗較高;但對機器人而言,無需高精度視頻,只要能驅(qū)動動作即可,目前看這一矛盾仍需解決。
王興興預(yù)判,未來2-5年,具身智能機器人的發(fā)展將聚焦三大方向:
一是,統(tǒng)一的端到端智能機器人大模型。端到端模型是提升機器人能力的關(guān)鍵。未來需重點推動端到端模型的研發(fā),實現(xiàn) “基于既有訓(xùn)練基礎(chǔ)快速學(xué)習(xí)新技能”,提升模型的通用性和效率。
二是,更低成本、更高壽命的硬件及批量制造。硬件的優(yōu)化亦是不可或缺的一環(huán)。即便是歷經(jīng)百年發(fā)展的汽車行業(yè),也仍需不斷攻克工程領(lǐng)域的重重難關(guān);對于未來可能達(dá)到“數(shù)百萬、數(shù)千萬臺” 量級的人形機器人,必須解決 “低成本、高壽命” 及 “超大批量制造” 的工程挑戰(zhàn),才能支撐大規(guī)模應(yīng)用。
三是,低成本、大規(guī)模的分布式算力網(wǎng)絡(luò)。機器人本體受限于尺寸和電池容量,無法部署大規(guī)模算力,因為“其峰值功耗通常僅 100 瓦左右,相當(dāng)于幾部手機的算力?!?/p>
因此,未來需要構(gòu)建分布式算力網(wǎng)絡(luò),例如,工業(yè)場景中,可在工廠內(nèi)部署局部服務(wù)器集群,供100臺級機器人就近連接,降低通信延遲;再如,民用場景(如小區(qū))中,可建立區(qū)域級算力集群,減少用戶的算力建設(shè)成本,同時保障延遲和安全性。
在會后采訪中,有媒體提到了機器人的價格預(yù)期。對此,王興興表示,當(dāng)機器人具備大規(guī)模作業(yè)能力時,機器人甚至將會是免費的狀態(tài),因為“每臺機器人出廠后都可以繳稅?!?/p>
對此,他舉了個例子:一臺機器人是干什么活的?就可以從它生產(chǎn)的價值中直接扣稅。譬如,若有一片荒蕪之地,企業(yè)派遣機器人前去開墾耕作,那么機器人所創(chuàng)造的部分價值將直接轉(zhuǎn)化為稅收。
“這個過程快的話可能要2~3年,慢的話可能3~5年,但是我覺得這波浪潮(的到來)大概率不會超過10年?!蓖跖d興說道。
王興興的發(fā)言引起了不小的爭議。對于智能汽車行業(yè)而言,當(dāng)前VLA+RL是最熱門的方向,理想汽車、小鵬、華為、文遠(yuǎn)知行等多家企業(yè)都采用了這一路線或者近似路線。同時,華為、蔚來,以及理想、小鵬也采用了世界模型,不過表述和功能有所區(qū)別,有的僅用于模擬訓(xùn)練,有的則直接表述為自動駕駛模型的基座模型。
當(dāng)然,具身智能的開發(fā)邏輯和智能駕駛開發(fā)邏輯未必一致,王興興的意見也僅僅是一家之眼,后續(xù)的技術(shù)路線之爭,也還需要在實戰(zhàn)中見高下。
時機悄然轉(zhuǎn)變,汽車行業(yè)從“上半場”的電動化轉(zhuǎn)向“下半場”的智能化。2025年初,這一換擋期到來
2025-02-18 09:50:242025智駕元年啟動高階智駕汽車的價格門檻再次降低。近日,比亞迪宣布其“天神之眼”高階智駕系統(tǒng)將覆蓋旗下21款車型,全系車型都將搭載該系統(tǒng),其中價格最低的海鷗智駕版售價僅為7.88萬元
2025-02-16 19:37:45比亞迪把智駕價格打下來誰最緊張特斯拉FSD在國內(nèi)正式推送上線,讓人感到意外。2月25日,特斯拉宣布在中國發(fā)布FSD功能,軟件版本為2024.45.32.12,更新名稱為城市道路Autopilot自動輔助駕駛
2025-02-25 15:57:00特斯拉OTA開放城市道路智駕