稚暉君搞了個(gè)“好東西”,網(wǎng)上的視頻也能拿來訓(xùn)練機(jī)器人了 提高復(fù)雜任務(wù)成功率!上周五,稚暉君在微博預(yù)告了一波“好東西”。周一,智元機(jī)器人就展示了新產(chǎn)品。這款機(jī)器人能夠端茶倒水、煮咖啡,還能把面包放進(jìn)面包機(jī),涂抹果醬,并將面包端到面前。此外,它還可以充當(dāng)迎賓前臺。
不過,這些功能在現(xiàn)今的人形機(jī)器人視頻中已不罕見。真正值得關(guān)注的是智元機(jī)器人發(fā)布的基座大模型GO-1(Genie Operator-1)。這個(gè)大模型解決了人形機(jī)器人長期以來面臨的數(shù)據(jù)匱乏和泛化能力差的問題。
目前,人形機(jī)器人表現(xiàn)不佳的一個(gè)重要原因就是缺乏高質(zhì)量數(shù)據(jù),而獲取這些數(shù)據(jù)的成本非常高。去年底,智元機(jī)器人開源了百萬真機(jī)數(shù)據(jù)集AgiBot World,涵蓋了超過100萬條軌跡、217個(gè)任務(wù)和106個(gè)場景。盡管如此,這些數(shù)據(jù)仍然不足以解決機(jī)器人泛化能力差的問題。
為此,智元機(jī)器人提出了新的ViLLA(Vision-Language-Latent-Action)架構(gòu),這是GO-1大模型的核心。與傳統(tǒng)的VLA架構(gòu)不同,ViLLA架構(gòu)不僅依賴于大量標(biāo)注過的真機(jī)數(shù)據(jù),還能利用互聯(lián)網(wǎng)上的大量人類視頻數(shù)據(jù)。這意味著基于GO-1大模型的機(jī)器人可以通過觀看視頻來學(xué)習(xí)相應(yīng)動作。
具體來說,ViLLA架構(gòu)由VLM(多模態(tài)大模型)和MoE(混合專家)組成。VLM處理輸入的視頻數(shù)據(jù),潛在動作模型將其拆解成關(guān)鍵步驟,如“抓取”、“移動”和“喝水”。接著,隱式規(guī)劃器進(jìn)一步細(xì)化這些步驟,生成更詳細(xì)的指令。最后,動作專家將這些指令轉(zhuǎn)換成機(jī)器人可以理解并執(zhí)行的動作信號。
相比傳統(tǒng)VLA架構(gòu),ViLLA架構(gòu)在執(zhí)行復(fù)雜任務(wù)時(shí)表現(xiàn)更出色,且任務(wù)泛化能力更強(qiáng)。此外,ViLLA架構(gòu)生成的是通用動作標(biāo)記,不依賴特定硬件,更容易遷移到其他機(jī)器人平臺。
GO-1使機(jī)器人能夠從互聯(lián)網(wǎng)上的人類視頻數(shù)據(jù)中學(xué)習(xí),并具備拆解任務(wù)的能力,提高了復(fù)雜任務(wù)的成功率和泛化能力。如果GO-1的效果如官方描述,這將是整個(gè)人形機(jī)器人行業(yè)的一大進(jìn)步。至于智元是否會繼續(xù)開源GO-1,還有待觀察。聽說智元機(jī)器人明天還將公布一個(gè)驚喜,讓我們拭目以待。