6月3日,京東宣布開源JoyAI-Echo長音視頻生成框架。這一框架解決了角色一致性、音色控制和視頻生成速度等三大行業(yè)痛點,實現(xiàn)了長視頻的高效高質(zhì)量生成。JoyAI-Echo還引入了“邊聊邊改”模式,將視頻創(chuàng)作從靜態(tài)生成轉(zhuǎn)變?yōu)閯討B(tài)協(xié)作。

JoyAI-Echo在各類視頻創(chuàng)作、數(shù)字人直播、品牌營銷、教育和游戲內(nèi)容生產(chǎn)等領(lǐng)域具有巨大應(yīng)用潛力,標(biāo)志著京東在長視頻生成領(lǐng)域取得了重大突破,進入全球領(lǐng)先行列。
在AI視頻領(lǐng)域,盡管十幾秒短視頻的生成質(zhì)量已趨于成熟,但分鐘級長視頻的生成仍面臨諸多挑戰(zhàn)。例如,同一角色在不同鏡頭中外觀不一致,說話人的音色變化無常,以及生成速度過慢等問題。這些問題使得AI長視頻難以真正投入實際應(yīng)用。JoyAI-Echo通過四項技術(shù)創(chuàng)新解決了這些難題:
跨模態(tài)音視頻記憶庫確保角色在多鏡頭生成過程中保持一致的外觀和音色。長達(dá)5分鐘的視頻中,角色身份、視覺形象和聲音音色都能高度一致,避免了“同一個人演著演著變成另一個人”的尷尬情況。
記憶驅(qū)動后訓(xùn)練流程結(jié)合SFT、跨模態(tài)RLHF和DMD技術(shù),大幅提升了生成質(zhì)量和推理速度。特別是DMD技術(shù)帶來了約7.5倍的速度提升,使長視頻生成時間大大縮短。
智能“導(dǎo)演助理”Director Agent支持對話式編輯,用戶可以通過自然語言表達(dá)需求,系統(tǒng)會自動拆分劇本、角色、場景和鏡頭,并根據(jù)用戶反饋進行局部修改,無需重新生成整個視頻。
輕量化實時超分模塊支持兩檔分辨率提升,確保高清輸出且不卡頓。即使在流式延遲的約束下,也能保持穩(wěn)定的高清表現(xiàn)。
清晨六點,深圳灣大橋上的車流已如潮水般涌動。一輛掛著澳門車牌的商務(wù)車駛過港珠澳大橋,三小時后,車上的工程師已在東莞松山湖調(diào)試新一批智能機器人零部件
2026-01-29 20:52:24粵港澳GDP躋身全球第一梯隊