5月14日晚,阿里巴巴宣布開源通義萬相Wan2.1-VACE,這是目前業(yè)界功能最全的視頻生成與編輯模型。該單一模型支持文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時(shí)長延展等全系列基礎(chǔ)生成和編輯能力。此次開源了1.3B和14B兩個(gè)版本,其中1.3B版本可在消費(fèi)級顯卡上運(yùn)行。
阿里云方面表示,Wan2.1-VACE基于通義萬相文生視頻模型研發(fā),并創(chuàng)新性地提出了全新的視頻條件單元(VCU)。這一單元在輸入形態(tài)上統(tǒng)一了文生視頻、參考圖生視頻、視頻生視頻及基于局部區(qū)域的視頻生視頻四大類任務(wù)。此外,Wan2.1-VACE還解決了多模態(tài)輸入的token序列化難題,通過將VCU輸入的幀序列進(jìn)行概念解耦,再分開重構(gòu)為可變序列和不可變序列后進(jìn)行編碼。
自今年2月以來,通義萬相已先后開源了文生視頻模型、圖生視頻模型和首尾幀生視頻模型,這些模型在開源社區(qū)的下載量已超過330萬。
2月22日,2025全球開發(fā)者先鋒大會(GDC)在上海徐匯西岸穹頂藝術(shù)中心正式開幕。大會以“模塑全球 無限可能”為主題,從2月21日至23日舉行
2025-02-26 11:05:51大模型開源卷到視頻領(lǐng)域DeepSeek發(fā)布了新一代開源大模型DeepSeek-R1。該模型在數(shù)學(xué)、代碼、自然語言推理等任務(wù)上的性能與美國OpenAI公司的最新o1大模型相當(dāng)
2025-01-21 22:05:22DeepSeek又有重大突破