宇樹科技王興興發(fā)“暴論”，對智駕有什么參考？

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-08-14 10:55:49 賽博汽車

“VLA模型是相對傻瓜式的架構(gòu)。”2025年8月9日，在北京舉辦的2025世界機器人大會上，宇樹科技的創(chuàng)始人、CEO兼CTO王興興在演講中這樣說道。

“VLA模型是相對傻瓜式的架構(gòu)?！?/p>

2025年8月9日，在北京舉辦的2025世界機器人大會上，宇樹科技的創(chuàng)始人、CEO兼CTO王興興在演講中這樣說道。

盡管他是針對具身智能大模型發(fā)表這一看法的，但對于當(dāng)前智能駕駛最熱門模型方向，不得不讓人有些錯愕。

包括極佳視界的CEO黃冠也在吐槽他的觀點“太業(yè)余”。

王興興認(rèn)為，世界模型可能是更好的技術(shù)方向。不過，短期的未來2~5年，“最大的肯定還是一個端到端的具身智能AI模型”。

大會上，他從核心瓶頸、新興技術(shù)引擎及未來技術(shù)重心三個方面，對具身智能機器人的發(fā)展態(tài)勢進行梳理與分析。我們不妨看看，這位大紅人的觀點，有什么啟發(fā)。

01核心瓶頸：模型不夠好

談及機器人未大規(guī)模應(yīng)用的原因，很多人誤認(rèn)為是硬件性能不足或成本過高。但王興興指出，當(dāng)前機器人硬件（包括人形機器人的靈巧手、整機等）已基本夠用。

從技術(shù)層面而言，人形機器人的硬件，諸如靈巧手和整機等，已足夠滿足基本需求，盡管在工程實施上仍存在諸多挑戰(zhàn)，但已能夠支撐基礎(chǔ)功能的實現(xiàn)。

他認(rèn)為，限制其大規(guī)模應(yīng)用的核心瓶頸，在于具身智能的AI大模型尚未成熟。

王興興認(rèn)為，目前的機器人大模型（具身智能）發(fā)展階段，類似ChatGPT發(fā)布前的1～3年，即業(yè)界已明確方向和技術(shù)路線，但尚未突破關(guān)鍵臨界點。

在王興興看來，之所以沒達(dá)到關(guān)鍵臨界點，主要是由于行業(yè)對“數(shù)據(jù)”的關(guān)注度過高，卻忽視了模型本身的問題。

王興興認(rèn)為，具身智能發(fā)展的關(guān)鍵問題在于模型架構(gòu)不夠完善、缺乏統(tǒng)一性、泛用性，導(dǎo)致能力受限，而且數(shù)據(jù)還不能完全利用起來。

以當(dāng)前較受關(guān)注的VLA模型為例，王興興認(rèn)為其是“相對傻瓜式的架構(gòu)”，其在真實世界交互中，對數(shù)據(jù)質(zhì)量的依賴過高，但適應(yīng)性不足。因此，他對VLA模型的應(yīng)用前景持懷疑態(tài)度。

此外，“VLA模型+RL訓(xùn)練”也是行業(yè)常見的優(yōu)化思路，但他認(rèn)為，實踐表明折讓仍然不夠?！澳Ｐ图軜?gòu)必須進一步升級，不能停留在簡單組合層面。”王興興這樣說道。

在王興興看來，另一個限制發(fā)展因素是“RL Scaling law（縮放定律）”的缺失，這導(dǎo)致機器人尚未解決“從零開始”的魔咒。王興興認(rèn)為，目前機器人在學(xué)習(xí)新任務(wù)時，例如學(xué)習(xí)一支新的舞蹈或完成一項新的工作，往往需要從零開始訓(xùn)練，這導(dǎo)致了訓(xùn)練效率的顯著低下。這是由于機器人控制中“RL Scaling law（縮放定律）” 的缺失造成的。

在王興興看來，具身智能的理想狀態(tài)是“新任務(wù)訓(xùn)練基于舊有基礎(chǔ)，速度越來越快、效果越來越好”。這一規(guī)律在語言模型中已得到充分驗證，而在機器人運動控制領(lǐng)域，尚處于起步階段，不過展現(xiàn)出巨大的潛力，是值得行業(yè)深入探索的關(guān)鍵領(lǐng)域。

02新技術(shù)方向：視頻生成模型

既然VLA模型模型還不足夠優(yōu)秀，那么什么模型才是方向呢？

王興興認(rèn)為，現(xiàn)階段看視頻生成模型的路線可能比VLA模型更快，收斂概率更大。

其核心邏輯在于：利用視頻生成模型預(yù)先“模擬生成機器人動作序列的視頻”，進而直接指導(dǎo)實體機器人執(zhí)行相應(yīng)動作。例如，若指令為“整理房間”，模型可先生成機器人整理房間的虛擬視頻，再將視頻中的動作轉(zhuǎn)化為實體機器人的控制信號。

不過，王興興指出，這一路線也存在一個現(xiàn)實問題：當(dāng)前視頻生成模型過度關(guān)注“視頻質(zhì)量”，導(dǎo)致GPU消耗較高；但對機器人而言，無需高精度視頻，只要能驅(qū)動動作即可，目前看這一矛盾仍需解決。

03未來技術(shù)重心：模型、硬件與算力網(wǎng)絡(luò)

王興興預(yù)判，未來2-5年，具身智能機器人的發(fā)展將聚焦三大方向：

一是，統(tǒng)一的端到端智能機器人大模型。端到端模型是提升機器人能力的關(guān)鍵。未來需重點推動端到端模型的研發(fā)，實現(xiàn) “基于既有訓(xùn)練基礎(chǔ)快速學(xué)習(xí)新技能”，提升模型的通用性和效率。

二是，更低成本、更高壽命的硬件及批量制造。硬件的優(yōu)化亦是不可或缺的一環(huán)。即便是歷經(jīng)百年發(fā)展的汽車行業(yè)，也仍需不斷攻克工程領(lǐng)域的重重難關(guān)；對于未來可能達(dá)到“數(shù)百萬、數(shù)千萬臺” 量級的人形機器人，必須解決 “低成本、高壽命” 及 “超大批量制造” 的工程挑戰(zhàn)，才能支撐大規(guī)模應(yīng)用。

三是，低成本、大規(guī)模的分布式算力網(wǎng)絡(luò)。機器人本體受限于尺寸和電池容量，無法部署大規(guī)模算力，因為“其峰值功耗通常僅 100 瓦左右，相當(dāng)于幾部手機的算力?！?/p>

因此，未來需要構(gòu)建分布式算力網(wǎng)絡(luò)，例如，工業(yè)場景中，可在工廠內(nèi)部署局部服務(wù)器集群，供100臺級機器人就近連接，降低通信延遲；再如，民用場景（如小區(qū)）中，可建立區(qū)域級算力集群，減少用戶的算力建設(shè)成本，同時保障延遲和安全性。

在會后采訪中，有媒體提到了機器人的價格預(yù)期。對此，王興興表示，當(dāng)機器人具備大規(guī)模作業(yè)能力時，機器人甚至將會是免費的狀態(tài)，因為“每臺機器人出廠后都可以繳稅?！?/p>

對此，他舉了個例子：一臺機器人是干什么活的？就可以從它生產(chǎn)的價值中直接扣稅。譬如，若有一片荒蕪之地，企業(yè)派遣機器人前去開墾耕作，那么機器人所創(chuàng)造的部分價值將直接轉(zhuǎn)化為稅收。

“這個過程快的話可能要2～3年，慢的話可能3～5年，但是我覺得這波浪潮(的到來)大概率不會超過10年?！蓖跖d興說道。

王興興的發(fā)言引起了不小的爭議。對于智能汽車行業(yè)而言，當(dāng)前VLA+RL是最熱門的方向，理想汽車、小鵬、華為、文遠(yuǎn)知行等多家企業(yè)都采用了這一路線或者近似路線。同時，華為、蔚來，以及理想、小鵬也采用了世界模型，不過表述和功能有所區(qū)別，有的僅用于模擬訓(xùn)練，有的則直接表述為自動駕駛模型的基座模型。

當(dāng)然，具身智能的開發(fā)邏輯和智能駕駛開發(fā)邏輯未必一致，王興興的意見也僅僅是一家之眼，后續(xù)的技術(shù)路線之爭，也還需要在實戰(zhàn)中見高下。

(責(zé)任編輯：zx0002)

關(guān)閉

宇樹科技王興興發(fā)“暴論”，對智駕有什么參考？

01核心瓶頸：模型不夠好

02新技術(shù)方向：視頻生成模型

03未來技術(shù)重心：模型、硬件與算力網(wǎng)絡(luò)

相關(guān)新聞

今日熱點

頻道熱點

宇樹科技王興興發(fā)“暴論”，對智駕有什么參考？

03未來技術(shù)重心：模型、硬件與算力網(wǎng)絡(luò)