擁有了能夠想象物理合理未來的能力還不夠,真正的智能體還需要知道如何將想象轉(zhuǎn)化為實際行動。為了解決這個問題,研究團隊開發(fā)了Flow-Mask逆動力學(xué)模型(FM-IDM)。這個模型的作用就像人類的小腦和運動皮層,負責(zé)將視覺想象轉(zhuǎn)化為具體的動作指令。FM-IDM的工作原理相當(dāng)巧妙。它首先分析當(dāng)前狀態(tài)和預(yù)期狀態(tài)之間的視覺差異,然后利用光流技術(shù)來理解物體是如何移動的?;谶@些信息,F(xiàn)M-IDM能夠推斷出機器人需要執(zhí)行什么樣的動作才能實現(xiàn)這種狀態(tài)轉(zhuǎn)換。為了訓(xùn)練這個模型,研究團隊收集了64.6萬個圖像-動作對,涵蓋219個不同的操作任務(wù)。
評估AI系統(tǒng)的物理理解能力是一個全新的挑戰(zhàn)。研究團隊意識到,需要一套全新的評估標(biāo)準(zhǔn)來衡量AI的物理智能。于是他們開發(fā)了WoWBench,這是第一個專門針對具身世界模型的綜合性基準(zhǔn)測試。WoWBench包含606個精心設(shè)計的測試樣本。每個測試都給AI一張初始圖片和一個文字指令,然后要求AI生成一段視頻來展示如何完成這個任務(wù)。評估體系分為四個核心維度:視頻質(zhì)量、規(guī)劃推理能力、物理規(guī)律理解和指令理解能力。結(jié)果顯示,WoW模型表現(xiàn)出色,在指令理解方面達到了96.53%的準(zhǔn)確率,在物理定律理解方面達到了80.16%的準(zhǔn)確率。
理論再完美,也需要實踐來驗證。研究團隊進行了大量實驗來測試WoW系統(tǒng)的實際效果。他們在仿真環(huán)境中進行了大量測試,WoW展現(xiàn)出了令人印象深刻的泛化能力。即使面對訓(xùn)練時從未見過的場景,它也能生成物理上合理的預(yù)測。更重要的是,研究團隊還進行了真實機器人實驗。他們將WoW生成的動作指令輸入到真實的機器人中,測試這些指令是否能在現(xiàn)實世界中成功執(zhí)行。結(jié)果顯示,WoW生成的動作計劃在現(xiàn)實世界中有很高的成功率。
2025世界人形機器人運動會,在機器人異彩紛呈的表現(xiàn)背后,是相關(guān)技術(shù)的不斷迭代更新。
2025-08-18 07:50:28世界人形機器人運動會為創(chuàng)新找準(zhǔn)突破口