研究團隊還創(chuàng)新性地開發(fā)了SOPHIA框架(Self-Optimizing Predictive Hallucination Improving Agent),這個框架就像給AI裝上了一個內(nèi)在的"老師"。當AI生成一個預測視頻時,這個內(nèi)在老師會仔細檢查視頻是否符合物理規(guī)律,發(fā)現(xiàn)問題后會給出具體的修改建議,讓AI重新生成更合理的視頻。這個過程會反復進行,直到生成的視頻既視覺逼真又物理正確。
為了驗證WoW的能力,研究團隊建立了WoWBench基準測試,這是第一個專門評估AI物理理解能力的測試標準,包含606個測試樣本。實驗結(jié)果顯示,WoW在指令理解方面達到96.53%的準確率,在物理定律理解方面達到80.16%的準確率,在多項測試中都達到了當前最先進的水平。更重要的是,WoW不僅能想象未來會發(fā)生什么,還能將這些想象轉(zhuǎn)化為實際的機器人動作指令,真正實現(xiàn)了從"想象"到"行動"的完整閉環(huán)。
傳統(tǒng)的AI視頻生成模型通過觀看大量網(wǎng)絡視頻來學習如何生成看起來真實的畫面,但學到的只是事物的外觀,而不是事物運作的內(nèi)在規(guī)律。WoW世界模型則更像一個完整的認知系統(tǒng),包含了感知、預測、判斷、反思和行動五個核心環(huán)節(jié)。這種設計理念的轉(zhuǎn)變意義重大,過去的模型更像是一臺精密的錄像機,能夠重現(xiàn)看過的場景,但無法理解場景背后的物理原理。而WoW更像是一個真正的智能體,它不僅能夠想象未來會發(fā)生什么,還能理解為什么會這樣發(fā)生,并且知道如何通過行動來影響結(jié)果。
SOPHIA框架是這項研究的核心創(chuàng)新,它的全稱是"自優(yōu)化預測幻覺改進智能體"。SOPHIA框架模擬了心理學家丹尼爾·卡尼曼描述的人類大腦的兩套思維系統(tǒng):系統(tǒng)1負責快速直覺反應,系統(tǒng)2負責深度分析思考。在SOPHIA中,首先有一個"生成器"(類似系統(tǒng)1),它能夠快速生成對未來的預測視頻。但是,這個初始預測往往包含物理上不合理的地方。接下來,"批評家"系統(tǒng)(類似系統(tǒng)2)會仔細檢查這個預測是否符合物理定律。當批評家發(fā)現(xiàn)問題時,它會生成詳細的反饋,指出哪里不對,為什么不對。然后,"改進器"會根據(jù)這些反饋重新調(diào)整輸入指令,讓生成器產(chǎn)生更合理的預測。這個過程會反復進行,直到生成的視頻既視覺逼真又物理合理。
2025世界人形機器人運動會,在機器人異彩紛呈的表現(xiàn)背后,是相關(guān)技術(shù)的不斷迭代更新。
2025-08-18 07:50:28世界人形機器人運動會為創(chuàng)新找準突破口