Helix由“系統(tǒng)1”和“系統(tǒng)2”組成,可以實(shí)現(xiàn)人形機(jī)器人上半身的高速精確控制。系統(tǒng)2(S2)是VLM主干網(wǎng)絡(luò),工作頻率7-9Hz,用于場(chǎng)景和語(yǔ)言理解;系統(tǒng)1(S2)是80M參數(shù)交叉注意力Transformer,依靠全卷積多尺度視覺(jué)主干網(wǎng)絡(luò)進(jìn)行視覺(jué)處理。這種解耦架構(gòu)讓每個(gè)系統(tǒng)都能在最佳時(shí)間尺度上運(yùn)行,S2可以“慢思考”高層目標(biāo),S1通過(guò)“快思考”來(lái)實(shí)時(shí)執(zhí)行和調(diào)整動(dòng)作。
Helix不僅達(dá)到了專門針對(duì)單任務(wù)行為克隆策略的運(yùn)行速度,還能夠?qū)?shù)千個(gè)全新測(cè)試對(duì)象實(shí)現(xiàn)零樣本學(xué)習(xí)。它可以直接輸出高維動(dòng)作空間的連續(xù)控制,避免了先前VLA方法中使用的復(fù)雜動(dòng)作token化方案。Helix采用標(biāo)準(zhǔn)架構(gòu),系統(tǒng)2使用開(kāi)源開(kāi)放權(quán)重的視覺(jué)語(yǔ)言模型,系統(tǒng)1則采用簡(jiǎn)單的基于Transformer的視覺(jué)運(yùn)動(dòng)策略。通過(guò)S1和S2的“解耦”,能夠獨(dú)立迭代優(yōu)化每個(gè)系統(tǒng),無(wú)需受限于尋找統(tǒng)一的觀察空間或動(dòng)作表示。
研究人員收集了一個(gè)高質(zhì)量的多樣化遙操作行為數(shù)據(jù)集,總計(jì)約500小時(shí)。為了生成自然語(yǔ)言條件下的訓(xùn)練對(duì),他們使用自動(dòng)標(biāo)注VLM來(lái)生成回顧性指令。S2建立在一個(gè)經(jīng)過(guò)互聯(lián)網(wǎng)規(guī)模數(shù)據(jù)預(yù)訓(xùn)練的7B參數(shù)開(kāi)源開(kāi)放權(quán)重VLM之上,處理單目機(jī)器人圖像和機(jī)器人狀態(tài)信息,將其投影到視覺(jué)-語(yǔ)言嵌入空間中。結(jié)合指定期望行為的自然語(yǔ)言命令,S2將所有與任務(wù)相關(guān)的語(yǔ)義信息提煉為單個(gè)連續(xù)潛層向量,傳遞給S1用于條件化其低層動(dòng)作。
S1是一個(gè)80M參數(shù)的交叉注意力編碼器-解碼器Transformer,負(fù)責(zé)低層控制。它依賴于一個(gè)全卷積的多尺度視覺(jué)主干網(wǎng)絡(luò)進(jìn)行視覺(jué)處理。雖然S1接收與S2相同的圖像和狀態(tài)輸入,但它以更高的頻率處理這些信息,以實(shí)現(xiàn)更快速的閉環(huán)控制。來(lái)自S2的潛層向量被投影到S1的token空間,并在序列維度上與S1視覺(jué)主干網(wǎng)絡(luò)的視覺(jué)特征連接,提供任務(wù)條件。S1以200Hz的頻率輸出完整的上半身人形機(jī)器人控制信號(hào),包括期望的手腕姿態(tài)、手指彎曲和外展控制,以及軀干和頭部方向目標(biāo)。
軟銀承諾每年花費(fèi)30億美元使用OpenAI的技術(shù)
2025-02-04 19:08:49SBOpenAI