機(jī)器人版的科比、詹姆斯和C羅已經(jīng)出現(xiàn)。只見“科比”在賽場上后仰跳投,大殺四方?!癈羅”和“詹姆斯”也展示了各自的招牌慶祝動作。這些還只是開篇,這款人形機(jī)器人還能完成側(cè)跳、前跳、前踢、右踢等高難度動作,甚至能深蹲和腿部拉伸。更令人驚艷的是,它還會跳APT舞。
與波士頓動力的Atlas相比,如今的人形機(jī)器人已進(jìn)化到難以想象的程度。正如Figure創(chuàng)始人所說,人形機(jī)器人的iPhone時刻即將到來。那么,如何讓機(jī)器人成為“機(jī)器人界的科比”呢?
來自CMU和英偉達(dá)的研究團(tuán)隊提出了ASAP模型,這是一個“real2sim2real”的框架,能讓機(jī)器人掌握流暢且動感的全身控制動作。ASAP包含兩個階段:預(yù)訓(xùn)練和后訓(xùn)練。在預(yù)訓(xùn)練階段,通過重定向的人體數(shù)據(jù),在仿真環(huán)境中預(yù)訓(xùn)練運(yùn)動跟蹤策略。在后訓(xùn)練階段,將這些策略部署到現(xiàn)實(shí)世界,并收集真實(shí)數(shù)據(jù),訓(xùn)練一個delta動作模型來彌補(bǔ)動力學(xué)差異。然后,將這個delta動作模型集成到仿真器中,對預(yù)訓(xùn)練策略進(jìn)行微調(diào),使其更好地匹配現(xiàn)實(shí)世界的動力學(xué)特性。
英偉達(dá)高級研究科學(xué)家Jim Fan表示,通過強(qiáng)化學(xué)習(xí),他們成功讓人形機(jī)器人模仿了C羅、詹姆斯和科比的動作。這些神經(jīng)網(wǎng)絡(luò)模型正在英偉達(dá)GEAR實(shí)驗(yàn)室的真實(shí)硬件平臺上運(yùn)行。為了讓大家清晰觀賞每個流暢的動作細(xì)節(jié),他們特意放慢了視頻速度。
ASAP模型采用“真實(shí)→仿真→真實(shí)”的方法,成功實(shí)現(xiàn)了人形機(jī)器人全身控制所需的超平滑動態(tài)運(yùn)動。首先在仿真環(huán)境對機(jī)器人進(jìn)行預(yù)訓(xùn)練,但面臨仿真與現(xiàn)實(shí)差距的問題。解決方案是將預(yù)訓(xùn)練策略部署到實(shí)體機(jī)器人上采集數(shù)據(jù),隨后在仿真環(huán)境中回放這些數(shù)據(jù)。通過額外神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)差異參數(shù),對傳統(tǒng)物理引擎進(jìn)行“動態(tài)校準(zhǔn)”,使機(jī)器人能在仿真環(huán)境中獲得近乎真實(shí)的訓(xùn)練體驗(yàn)。
未來屬于混合仿真時代,既繼承經(jīng)典仿真引擎的優(yōu)勢,又融合現(xiàn)代神經(jīng)網(wǎng)絡(luò)的能力,實(shí)現(xiàn)兩者的協(xié)同進(jìn)化。一直以來,sim2real是實(shí)現(xiàn)空間與具身智能的主要路徑之一,而real2sim2real直接打破了繁瑣的動作微調(diào)難題,彌合了sim2real的差距,讓機(jī)器人能夠模仿各種類人的動作。Jim Fan對此暢想道,2030年的人形機(jī)器人奧運(yùn)會一定會是一場盛宴。有網(wǎng)友期待地表示,真想看看它們打拳擊的表現(xiàn)。
由于仿真環(huán)境和現(xiàn)實(shí)世界的動力學(xué)差異,人形機(jī)器人實(shí)現(xiàn)敏捷協(xié)調(diào)的全身運(yùn)動仍是巨大挑戰(zhàn)?,F(xiàn)有方法如系統(tǒng)識別(SysID)和域隨機(jī)化(DR)通常需要大量時間調(diào)整參數(shù),或者生成的策略過于保守。ASAP是一個兩階段框架,旨在解決動力學(xué)不匹配問題,實(shí)現(xiàn)敏捷的人形機(jī)器人全身動作。ASAP實(shí)現(xiàn)了許多以前難以做到的高難度動作,展現(xiàn)了delta動作學(xué)習(xí)在縮小仿真與現(xiàn)實(shí)動力學(xué)差距方面的潛力。
具體步驟如下:先從真人視頻中提取動作并重定向到機(jī)器人上,預(yù)訓(xùn)練多個運(yùn)動跟蹤策略,生成真實(shí)世界的運(yùn)動軌跡。基于真實(shí)世界軌跡數(shù)據(jù),訓(xùn)練Delta動作模型,縮小仿真狀態(tài)與真實(shí)世界狀態(tài)之間的差異。Delta動作模型訓(xùn)練完成后,將其集成到仿真器中,使仿真器能匹配真實(shí)世界的物理特性,隨后對之前預(yù)訓(xùn)練的運(yùn)動跟蹤策略進(jìn)行微調(diào)。最后,直接在真實(shí)環(huán)境中部署微調(diào)后的策略,此時不再需要Delta動作模型。
ASAP包括兩個階段:預(yù)訓(xùn)練階段和后訓(xùn)練階段。在預(yù)訓(xùn)練階段,研究團(tuán)隊將真人運(yùn)動視頻作為數(shù)據(jù)來源,在仿真環(huán)境中訓(xùn)練動作跟蹤策略。將這些運(yùn)動數(shù)據(jù)重定向到人形機(jī)器人上,訓(xùn)練一個基于相位條件的運(yùn)動跟蹤策略,讓機(jī)器人模仿重定向后的動作。然而,如果將這一策略部署到真實(shí)硬件上,由于動力學(xué)差異,機(jī)器人的性能會下降。為解決這一問題,在后訓(xùn)練階段需要收集真實(shí)世界的運(yùn)行數(shù)據(jù),包括本體感知狀態(tài)和動作捕捉系統(tǒng)記錄的位置信息。隨后,在仿真環(huán)境中回放這些數(shù)據(jù),動力學(xué)差異以跟蹤誤差的形式表現(xiàn)出來。接著,訓(xùn)練一個delta動作模型,通過縮小真實(shí)世界和仿真狀態(tài)的差異,學(xué)習(xí)如何補(bǔ)償這些偏差。最后,借助delta動作模型對預(yù)訓(xùn)練的策略進(jìn)行微調(diào),使其更好地適應(yīng)真實(shí)世界的物理環(huán)境,從而實(shí)現(xiàn)更穩(wěn)定、敏捷的運(yùn)動控制。
這項(xiàng)研究的貢獻(xiàn)在于提出ASAP框架,運(yùn)用強(qiáng)化學(xué)習(xí)和真實(shí)世界的數(shù)據(jù)來訓(xùn)練delta動作模型,有效縮小了仿真與現(xiàn)實(shí)之間的差距。成功在真實(shí)環(huán)境部署全身控制策略,實(shí)現(xiàn)了不少以前人形機(jī)器人難以做到的動作。實(shí)驗(yàn)表明,ASAP能夠有效減少動力學(xué)不匹配問題,讓機(jī)器人做出高度敏捷的動作,同時顯著降低運(yùn)動跟蹤誤差。為了促進(jìn)不同仿真器之間的平滑遷移,研究者開發(fā)并開源了一個多仿真器訓(xùn)練與評估代碼庫,以加快后續(xù)研究。評估中,研究人員針對三種策略遷移進(jìn)行了廣泛的實(shí)驗(yàn)研究,結(jié)果顯示ASAP在所有指標(biāo)上都取得了顯著改進(jìn)。
在本屆CES上,英偉達(dá)發(fā)布了一系列面向AI時代的新產(chǎn)品和技術(shù),其中NVIDIA Cosmos平臺的推出尤為引人注目
2025-01-14 11:19:40英偉達(dá)的機(jī)器人軍團(tuán)近半來自中國原小鵬機(jī)器人運(yùn)控負(fù)責(zé)人達(dá)興燁在年后離職,加入了英偉達(dá)。目前,小鵬這一崗位由其他人員暫代,正在尋找合適人選
2025-02-26 15:57:02原小鵬機(jī)器人運(yùn)控負(fù)責(zé)人加入英偉達(dá)