北京人形機器人創(chuàng)新中心提出WoW 讓AI真正理解物理世界!北京大學(xué)計算機學(xué)院、北京人形機器人創(chuàng)新中心以及香港科技大學(xué)聯(lián)合完成了一項突破性研究,于2025年10月發(fā)表在arXiv預(yù)印本平臺。研究團隊由北京大學(xué)的張尚航教授和唐建教授共同領(lǐng)導(dǎo),匯集了來自三所頂尖學(xué)府的數(shù)十位研究人員。這項研究首次讓人工智能真正"理解"了物理世界的運作規(guī)律,而不僅僅是模仿表面現(xiàn)象。
當我們看到一個球從桌子上滾落時,我們本能地知道它會掉到地上,而不是懸浮在空中。這種對物理世界的直覺理解對人類來說是自然的,但對人工智能來說卻一直是個巨大的挑戰(zhàn)?,F(xiàn)有的AI視頻生成模型,比如OpenAI的Sora,雖然能制作出視覺效果驚艷的視頻,但它們就像只會畫畫的藝術(shù)家,能畫出好看的畫面,卻不懂得畫面背后的物理原理。它們可能會畫出物體懸浮在空中、違反重力定律的荒謬場景。
這種局限性的根源在于這些模型是通過觀看網(wǎng)絡(luò)視頻來學(xué)習(xí)的,就像一個從未親手觸摸過球的人,只能通過看別人玩球的視頻來"學(xué)習(xí)"球的特性。這種被動觀察的學(xué)習(xí)方式讓AI只能掌握事物的外觀,而無法理解事物運作的內(nèi)在規(guī)律。認知科學(xué)家讓·皮亞杰曾經(jīng)說過:"要了解一個物體,就必須對它采取行動。"這句話揭示了學(xué)習(xí)的本質(zhì):真正的理解來自于與世界的互動,而不是被動的觀察。
基于這個深刻的認知科學(xué)洞察,北京大學(xué)的研究團隊開發(fā)了WoW(World-Omniscient World Model)世界模型,這是一個擁有140億參數(shù)的生成式世界模型。與傳統(tǒng)模型最大的不同在于,WoW是通過200萬個真實機器人互動軌跡進行訓(xùn)練的。這些數(shù)據(jù)涵蓋了5275個不同任務(wù)和12種不同類型的機器人,就像讓AI親手體驗了無數(shù)次物理互動,從而真正學(xué)會了重力、碰撞、慣性等物理定律。
研究團隊還創(chuàng)新性地開發(fā)了SOPHIA框架(Self-Optimizing Predictive Hallucination Improving Agent),這個框架就像給AI裝上了一個內(nèi)在的"老師"。當AI生成一個預(yù)測視頻時,這個內(nèi)在老師會仔細檢查視頻是否符合物理規(guī)律,發(fā)現(xiàn)問題后會給出具體的修改建議,讓AI重新生成更合理的視頻。這個過程會反復(fù)進行,直到生成的視頻既視覺逼真又物理正確。
為了驗證WoW的能力,研究團隊建立了WoWBench基準測試,這是第一個專門評估AI物理理解能力的測試標準,包含606個測試樣本。實驗結(jié)果顯示,WoW在指令理解方面達到96.53%的準確率,在物理定律理解方面達到80.16%的準確率,在多項測試中都達到了當前最先進的水平。更重要的是,WoW不僅能想象未來會發(fā)生什么,還能將這些想象轉(zhuǎn)化為實際的機器人動作指令,真正實現(xiàn)了從"想象"到"行動"的完整閉環(huán)。
傳統(tǒng)的AI視頻生成模型通過觀看大量網(wǎng)絡(luò)視頻來學(xué)習(xí)如何生成看起來真實的畫面,但學(xué)到的只是事物的外觀,而不是事物運作的內(nèi)在規(guī)律。WoW世界模型則更像一個完整的認知系統(tǒng),包含了感知、預(yù)測、判斷、反思和行動五個核心環(huán)節(jié)。這種設(shè)計理念的轉(zhuǎn)變意義重大,過去的模型更像是一臺精密的錄像機,能夠重現(xiàn)看過的場景,但無法理解場景背后的物理原理。而WoW更像是一個真正的智能體,它不僅能夠想象未來會發(fā)生什么,還能理解為什么會這樣發(fā)生,并且知道如何通過行動來影響結(jié)果。
SOPHIA框架是這項研究的核心創(chuàng)新,它的全稱是"自優(yōu)化預(yù)測幻覺改進智能體"。SOPHIA框架模擬了心理學(xué)家丹尼爾·卡尼曼描述的人類大腦的兩套思維系統(tǒng):系統(tǒng)1負責(zé)快速直覺反應(yīng),系統(tǒng)2負責(zé)深度分析思考。在SOPHIA中,首先有一個"生成器"(類似系統(tǒng)1),它能夠快速生成對未來的預(yù)測視頻。但是,這個初始預(yù)測往往包含物理上不合理的地方。接下來,"批評家"系統(tǒng)(類似系統(tǒng)2)會仔細檢查這個預(yù)測是否符合物理定律。當批評家發(fā)現(xiàn)問題時,它會生成詳細的反饋,指出哪里不對,為什么不對。然后,"改進器"會根據(jù)這些反饋重新調(diào)整輸入指令,讓生成器產(chǎn)生更合理的預(yù)測。這個過程會反復(fù)進行,直到生成的視頻既視覺逼真又物理合理。
擁有了能夠想象物理合理未來的能力還不夠,真正的智能體還需要知道如何將想象轉(zhuǎn)化為實際行動。為了解決這個問題,研究團隊開發(fā)了Flow-Mask逆動力學(xué)模型(FM-IDM)。這個模型的作用就像人類的小腦和運動皮層,負責(zé)將視覺想象轉(zhuǎn)化為具體的動作指令。FM-IDM的工作原理相當巧妙。它首先分析當前狀態(tài)和預(yù)期狀態(tài)之間的視覺差異,然后利用光流技術(shù)來理解物體是如何移動的?;谶@些信息,F(xiàn)M-IDM能夠推斷出機器人需要執(zhí)行什么樣的動作才能實現(xiàn)這種狀態(tài)轉(zhuǎn)換。為了訓(xùn)練這個模型,研究團隊收集了64.6萬個圖像-動作對,涵蓋219個不同的操作任務(wù)。
評估AI系統(tǒng)的物理理解能力是一個全新的挑戰(zhàn)。研究團隊意識到,需要一套全新的評估標準來衡量AI的物理智能。于是他們開發(fā)了WoWBench,這是第一個專門針對具身世界模型的綜合性基準測試。WoWBench包含606個精心設(shè)計的測試樣本。每個測試都給AI一張初始圖片和一個文字指令,然后要求AI生成一段視頻來展示如何完成這個任務(wù)。評估體系分為四個核心維度:視頻質(zhì)量、規(guī)劃推理能力、物理規(guī)律理解和指令理解能力。結(jié)果顯示,WoW模型表現(xiàn)出色,在指令理解方面達到了96.53%的準確率,在物理定律理解方面達到了80.16%的準確率。
理論再完美,也需要實踐來驗證。研究團隊進行了大量實驗來測試WoW系統(tǒng)的實際效果。他們在仿真環(huán)境中進行了大量測試,WoW展現(xiàn)出了令人印象深刻的泛化能力。即使面對訓(xùn)練時從未見過的場景,它也能生成物理上合理的預(yù)測。更重要的是,研究團隊還進行了真實機器人實驗。他們將WoW生成的動作指令輸入到真實的機器人中,測試這些指令是否能在現(xiàn)實世界中成功執(zhí)行。結(jié)果顯示,WoW生成的動作計劃在現(xiàn)實世界中有很高的成功率。
WoW的價值遠不止于視頻生成。在視覺效果制作方面,WoW能夠生成多角度視頻,這對電影制作和虛擬現(xiàn)實應(yīng)用非常有價值。在機器人訓(xùn)練方面,WoW可以作為一個強大的仿真器。傳統(tǒng)的機器人訓(xùn)練需要大量的真實世界數(shù)據(jù),這既昂貴又耗時。而WoW能夠生成大量高質(zhì)量的訓(xùn)練數(shù)據(jù),大大降低了機器人學(xué)習(xí)的成本。在教育領(lǐng)域,WoW可以用來制作物理教學(xué)視頻。它能夠準確模擬各種物理現(xiàn)象,比如彈性碰撞、流體運動等,為學(xué)生提供直觀的學(xué)習(xí)材料。研究團隊還發(fā)現(xiàn),WoW能夠增強其他AI系統(tǒng)的推理能力。當其他AI模型在處理復(fù)雜任務(wù)時遇到困難,WoW可以提供視覺化的"思考過程",幫助這些模型更好地理解問題。
WoW系統(tǒng)的核心是一個擁有14億參數(shù)的神經(jīng)網(wǎng)絡(luò),采用了擴散變換器(DiT)作為核心生成引擎。為了增強模型的感知能力,研究團隊引入了DINOv2的自監(jiān)督視覺特征。在數(shù)據(jù)處理方面,研究團隊采用了3D哈爾小波變換來壓縮視頻數(shù)據(jù)。文本條件化是另一個關(guān)鍵技術(shù)。研究團隊使用InternVL3-78B模型將簡單的指令擴展為詳細的環(huán)境描述,包括相機姿態(tài)、機器人類型和預(yù)期動作。模型的訓(xùn)練過程也經(jīng)過了精心設(shè)計。研究團隊不是簡單地增加數(shù)據(jù)量,而是注重數(shù)據(jù)質(zhì)量。他們建立了一個四階段的數(shù)據(jù)處理流程:收集、過濾、精化和重平衡。這確保了訓(xùn)練數(shù)據(jù)既大規(guī)模又高質(zhì)量,為模型學(xué)習(xí)提供了堅實的基礎(chǔ)。
雖然WoW在多個方面取得了突破性進展,但研究團隊也誠實地承認了當前技術(shù)的局限性。在物理理解方面,雖然WoW在基本物理定律的理解上表現(xiàn)出色,但在處理復(fù)雜的多體交互時仍有改進空間。在時間一致性方面,雖然WoW能夠生成較長的視頻序列,但在極長時間跨度的預(yù)測中,累積誤差仍然是一個挑戰(zhàn)。在計算效率方面,14億參數(shù)的模型需要相當大的計算資源。雖然這在研究環(huán)境中是可接受的,但要在普通設(shè)備上部署還需要進一步的優(yōu)化。另一個挑戰(zhàn)是泛化能力的邊界。雖然WoW在已知場景中表現(xiàn)優(yōu)秀,但當面對完全新穎的物理環(huán)境時,其表現(xiàn)可能會下降。
WoW的意義遠超出了一個單純的技術(shù)演示。它代表了人工智能發(fā)展中的一個重要里程碑:從被動的模式識別向主動的世界理解轉(zhuǎn)變。從技術(shù)發(fā)展的角度看,WoW開啟了"具身AI"的新時代。傳統(tǒng)的AI系統(tǒng)更像是"大腦在缸中",只能處理抽象的信息。而WoW這樣的具身AI系統(tǒng)則像是擁有了身體的智能,能夠理解物理世界并與之互動。這種轉(zhuǎn)變對于實現(xiàn)真正的通用人工智能至關(guān)重要。在應(yīng)用前景方面,WoW技術(shù)的成熟將帶來多個領(lǐng)域的革命性變化。在制造業(yè),智能機器人將能夠更靈活地適應(yīng)新任務(wù),無需重新編程就能處理各種操作。在服務(wù)業(yè),家用機器人將能夠更好地理解和響應(yīng)人類需求。在教育領(lǐng)域,AI教師將能夠提供更直觀、更個性化的學(xué)習(xí)體驗。從科學(xué)研究的角度看,WoW為理解智能的本質(zhì)提供了新的視角。它證明了物理交互在智能發(fā)展中的核心作用,這與認知科學(xué)的發(fā)現(xiàn)高度一致。這種跨學(xué)科的融合為未來的AI研究提供了重要啟示。
研究團隊已經(jīng)宣布將開源WoW的模型和數(shù)據(jù),這將加速整個領(lǐng)域的發(fā)展。當然,通向通用人工智能的路還很長。WoW只是這個宏大目標的一個重要步驟。未來的AI系統(tǒng)需要整合更多的認知能力,包括抽象推理、情感理解、創(chuàng)造性思維等。但WoW為這個整合過程提供了堅實的物理基礎(chǔ)。說到底,WoW的真正價值不在于它生成了多么逼真的視頻,而在于它讓AI第一次真正"理解"了物理世界。這種理解是智能的基礎(chǔ),也是AI走向現(xiàn)實世界的必要條件。隨著這項技術(shù)的不斷發(fā)展和完善,我們有理由相信,一個真正智能的AI時代正在向我們走來。對于普通人來說,WoW技術(shù)的發(fā)展意味著未來的AI助手將更加智能和實用。它們不再是只會聊天的語言模型,而是真正能夠理解和操作物理世界的智能伙伴。這將從根本上改變我們與技術(shù)的關(guān)系,讓AI真正成為人類生活和工作的得力助手。
2025世界人形機器人運動會,在機器人異彩紛呈的表現(xiàn)背后,是相關(guān)技術(shù)的不斷迭代更新。
2025-08-18 07:50:28世界人形機器人運動會為創(chuàng)新找準突破口