北京人形機器人創(chuàng)新中心提出WoW 讓AI真正理解物理世界(2)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-10-21 10:00:36 搜狐網(wǎng)

研究團隊還創(chuàng)新性地開發(fā)了SOPHIA框架（Self-Optimizing Predictive Hallucination Improving Agent），這個框架就像給AI裝上了一個內(nèi)在的"老師"。當AI生成一個預測視頻時，這個內(nèi)在老師會仔細檢查視頻是否符合物理規(guī)律，發(fā)現(xiàn)問題后會給出具體的修改建議，讓AI重新生成更合理的視頻。這個過程會反復進行，直到生成的視頻既視覺逼真又物理正確。

為了驗證WoW的能力，研究團隊建立了WoWBench基準測試，這是第一個專門評估AI物理理解能力的測試標準，包含606個測試樣本。實驗結(jié)果顯示，WoW在指令理解方面達到96.53%的準確率，在物理定律理解方面達到80.16%的準確率，在多項測試中都達到了當前最先進的水平。更重要的是，WoW不僅能想象未來會發(fā)生什么，還能將這些想象轉(zhuǎn)化為實際的機器人動作指令，真正實現(xiàn)了從"想象"到"行動"的完整閉環(huán)。

傳統(tǒng)的AI視頻生成模型通過觀看大量網(wǎng)絡視頻來學習如何生成看起來真實的畫面，但學到的只是事物的外觀，而不是事物運作的內(nèi)在規(guī)律。WoW世界模型則更像一個完整的認知系統(tǒng)，包含了感知、預測、判斷、反思和行動五個核心環(huán)節(jié)。這種設計理念的轉(zhuǎn)變意義重大，過去的模型更像是一臺精密的錄像機，能夠重現(xiàn)看過的場景，但無法理解場景背后的物理原理。而WoW更像是一個真正的智能體，它不僅能夠想象未來會發(fā)生什么，還能理解為什么會這樣發(fā)生，并且知道如何通過行動來影響結(jié)果。

SOPHIA框架是這項研究的核心創(chuàng)新，它的全稱是"自優(yōu)化預測幻覺改進智能體"。SOPHIA框架模擬了心理學家丹尼爾·卡尼曼描述的人類大腦的兩套思維系統(tǒng)：系統(tǒng)1負責快速直覺反應，系統(tǒng)2負責深度分析思考。在SOPHIA中，首先有一個"生成器"（類似系統(tǒng)1），它能夠快速生成對未來的預測視頻。但是，這個初始預測往往包含物理上不合理的地方。接下來，"批評家"系統(tǒng)（類似系統(tǒng)2）會仔細檢查這個預測是否符合物理定律。當批評家發(fā)現(xiàn)問題時，它會生成詳細的反饋，指出哪里不對，為什么不對。然后，"改進器"會根據(jù)這些反饋重新調(diào)整輸入指令，讓生成器產(chǎn)生更合理的預測。這個過程會反復進行，直到生成的視頻既視覺逼真又物理合理。

首頁上一頁 123 4 5 全文共 5 頁下一頁

關(guān)閉

北京人形機器人創(chuàng)新中心提出WoW 讓AI真正理解物理世界(2)

相關(guān)新聞

今日熱點

頻道熱點