北京人形機(jī)器人創(chuàng)新中心提出WoW 讓AI真正理解物理世界(4)

小大

用微信掃描二維碼
分享至好友和朋友圈

關(guān)鍵詞：

2025-10-21 10:00:36 搜狐網(wǎng)

WoW的價(jià)值遠(yuǎn)不止于視頻生成。在視覺(jué)效果制作方面，WoW能夠生成多角度視頻，這對(duì)電影制作和虛擬現(xiàn)實(shí)應(yīng)用非常有價(jià)值。在機(jī)器人訓(xùn)練方面，WoW可以作為一個(gè)強(qiáng)大的仿真器。傳統(tǒng)的機(jī)器人訓(xùn)練需要大量的真實(shí)世界數(shù)據(jù)，這既昂貴又耗時(shí)。而WoW能夠生成大量高質(zhì)量的訓(xùn)練數(shù)據(jù)，大大降低了機(jī)器人學(xué)習(xí)的成本。在教育領(lǐng)域，WoW可以用來(lái)制作物理教學(xué)視頻。它能夠準(zhǔn)確模擬各種物理現(xiàn)象，比如彈性碰撞、流體運(yùn)動(dòng)等，為學(xué)生提供直觀的學(xué)習(xí)材料。研究團(tuán)隊(duì)還發(fā)現(xiàn)，WoW能夠增強(qiáng)其他AI系統(tǒng)的推理能力。當(dāng)其他AI模型在處理復(fù)雜任務(wù)時(shí)遇到困難，WoW可以提供視覺(jué)化的"思考過(guò)程"，幫助這些模型更好地理解問(wèn)題。

WoW系統(tǒng)的核心是一個(gè)擁有14億參數(shù)的神經(jīng)網(wǎng)絡(luò)，采用了擴(kuò)散變換器（DiT）作為核心生成引擎。為了增強(qiáng)模型的感知能力，研究團(tuán)隊(duì)引入了DINOv2的自監(jiān)督視覺(jué)特征。在數(shù)據(jù)處理方面，研究團(tuán)隊(duì)采用了3D哈爾小波變換來(lái)壓縮視頻數(shù)據(jù)。文本條件化是另一個(gè)關(guān)鍵技術(shù)。研究團(tuán)隊(duì)使用InternVL3-78B模型將簡(jiǎn)單的指令擴(kuò)展為詳細(xì)的環(huán)境描述，包括相機(jī)姿態(tài)、機(jī)器人類型和預(yù)期動(dòng)作。模型的訓(xùn)練過(guò)程也經(jīng)過(guò)了精心設(shè)計(jì)。研究團(tuán)隊(duì)不是簡(jiǎn)單地增加數(shù)據(jù)量，而是注重?cái)?shù)據(jù)質(zhì)量。他們建立了一個(gè)四階段的數(shù)據(jù)處理流程：收集、過(guò)濾、精化和重平衡。這確保了訓(xùn)練數(shù)據(jù)既大規(guī)模又高質(zhì)量，為模型學(xué)習(xí)提供了堅(jiān)實(shí)的基礎(chǔ)。

雖然WoW在多個(gè)方面取得了突破性進(jìn)展，但研究團(tuán)隊(duì)也誠(chéng)實(shí)地承認(rèn)了當(dāng)前技術(shù)的局限性。在物理理解方面，雖然WoW在基本物理定律的理解上表現(xiàn)出色，但在處理復(fù)雜的多體交互時(shí)仍有改進(jìn)空間。在時(shí)間一致性方面，雖然WoW能夠生成較長(zhǎng)的視頻序列，但在極長(zhǎng)時(shí)間跨度的預(yù)測(cè)中，累積誤差仍然是一個(gè)挑戰(zhàn)。在計(jì)算效率方面，14億參數(shù)的模型需要相當(dāng)大的計(jì)算資源。雖然這在研究環(huán)境中是可接受的，但要在普通設(shè)備上部署還需要進(jìn)一步的優(yōu)化。另一個(gè)挑戰(zhàn)是泛化能力的邊界。雖然WoW在已知場(chǎng)景中表現(xiàn)優(yōu)秀，但當(dāng)面對(duì)完全新穎的物理環(huán)境時(shí)，其表現(xiàn)可能會(huì)下降。

首頁(yè)上一頁(yè)1 2 345 全文共 5 頁(yè)下一頁(yè)

關(guān)閉

北京人形機(jī)器人創(chuàng)新中心提出WoW 讓AI真正理解物理世界(4)

相關(guān)新聞

今日熱點(diǎn)

頻道熱點(diǎn)