微軟的研究團(tuán)隊(duì)最近在國際頂級(jí)學(xué)術(shù)期刊Nature上發(fā)表了一項(xiàng)新成果,名為Muse的視頻游戲生成模型。該模型基于近七年的游戲數(shù)據(jù)進(jìn)行訓(xùn)練,參數(shù)量最高達(dá)到16億,能夠理解游戲中的物理和3D環(huán)境,并生成玩家動(dòng)作及視覺效果。不過,目前它僅能以300×180像素的分辨率生成游戲畫面。
Muse生成的游戲視頻效果保持了一致性、多樣性和持久性。這意味著它可以生成長達(dá)兩分鐘的一致游戲序列,提供不同攝像機(jī)移動(dòng)角度、角色和游戲工具的多樣性,并支持開發(fā)者添加新元素并自動(dòng)融入畫面。這項(xiàng)工作由微軟研究員游戲智能團(tuán)隊(duì)、可教的AI體驗(yàn)團(tuán)隊(duì)與Xbox Games Studios旗下的Ninja Theory合作完成。
為了讓更多開發(fā)者體驗(yàn)這項(xiàng)技術(shù),微軟開源了權(quán)重和樣本數(shù)據(jù),并提供了可視化交互界面WHAM Demonstrator。開發(fā)者可以在Azure AI Foundry上學(xué)習(xí)和試驗(yàn)這些資源。Xbox也在考慮利用Muse為用戶構(gòu)建簡短的交互式AI游戲體驗(yàn),即將在Copilot Labs上試用。
Muse在7Maps數(shù)據(jù)集上進(jìn)行了訓(xùn)練,每張圖像被編碼為540個(gè)Tokens,數(shù)據(jù)量相當(dāng)于七年多的人類游戲時(shí)間。此外,還有較小規(guī)模的數(shù)據(jù)集用于特定地圖上的訓(xùn)練。通過提示模型使用10個(gè)初始幀(1秒)的人類游戲和整個(gè)游戲序列的控制器動(dòng)作,可以生成多個(gè)可能的延續(xù)圖像。用戶還可以瀏覽生成的序列并進(jìn)行調(diào)整,例如使用游戲控制器指導(dǎo)角色行動(dòng),這展示了Muse如何將迭代作為創(chuàng)作過程的一部分。
研究人員總結(jié)了27名從事游戲開發(fā)的創(chuàng)意人員的意見,確定了模型需要具備一致性、多樣性和持久性三大能力。一致性使得生成的序列隨時(shí)間推移并與游戲機(jī)制保持一致;多樣性允許模型產(chǎn)生大量不同的序列,反映不同的潛在結(jié)果;持久性則使用戶對(duì)游戲視覺效果和控制器動(dòng)作進(jìn)行修改,并將其同化到生成的游戲序列中。
Muse通過預(yù)測(cè)游戲視覺效果和玩家的控制器動(dòng)作來準(zhǔn)確捕捉游戲環(huán)境的3D結(jié)構(gòu)、控制器動(dòng)作的效果以及游戲的時(shí)間結(jié)構(gòu)。研究人員最初使用V100集群進(jìn)行訓(xùn)練,后來擴(kuò)展到H100的大規(guī)模訓(xùn)練,提高了圖像編碼器的質(zhì)量和模型規(guī)模。
論文還詳細(xì)介紹了Muse在一致性、多樣性和持久性方面的評(píng)估結(jié)果。通過Fréchet視頻距離(FVD)和Wasserstein距離等指標(biāo),研究人員發(fā)現(xiàn)生成的游戲玩法與真實(shí)情況高度匹配。此外,Muse能夠在手動(dòng)編輯游戲圖像后保留插入的新元素,顯示出其強(qiáng)大的持久性。
這項(xiàng)研究不僅展示了生成式AI在游戲領(lǐng)域的潛力,還為未來的游戲體驗(yàn)開辟了新的可能性。微軟已經(jīng)開源了相關(guān)資源,加速了開發(fā)者的研究進(jìn)程,或許不久的將來會(huì)有更多基于AI的新穎游戲體驗(yàn)出現(xiàn)。