7月29日消息,阿里云宣布通義萬(wàn)相重磅開源,通義萬(wàn)相2.2正式開源,包括開源文生視頻Wan2.2-T2V-A14B、圖生視頻Wan2.2-I2V-A14B、統(tǒng)一視頻生成Wan2.2-TI2V-5B。
即日起,用戶可在GitHub、HuggingFace、魔搭社區(qū)下載模型和代碼,也可在通義萬(wàn)相官網(wǎng)和通義APP直接體驗(yàn)。
文生視頻模型和圖生視頻模型均為業(yè)界首個(gè)使用MoE架構(gòu)的視頻生成模型,總參數(shù)量為27B,激活參數(shù)14B;同時(shí),首創(chuàng)電影美學(xué)控制系統(tǒng),光影、色彩、構(gòu)圖、微表情等能力媲美專業(yè)電影水平。
Wan2.2-T2V-A14B、Wan2.2-I2V-A14B兩款模型均由高噪聲專家模型和低噪專家模型組成,分別負(fù)責(zé)視頻的整體布局和細(xì)節(jié)完善,在同參數(shù)規(guī)模下,可節(jié)省約50%的計(jì)算資源消耗,在模型能上,通義萬(wàn)相2.2在復(fù)雜運(yùn)動(dòng)生成、人物交互、美學(xué)表達(dá)、復(fù)雜運(yùn)動(dòng)等維度上也取得了顯著提升。
統(tǒng)一視頻生成Wan2.2-TI2V-5B是一款5B小尺寸的模型,單一模型同時(shí)支持文生視頻和圖生視頻,可在消費(fèi)級(jí)顯卡部署。
該模型采用了高壓縮率3D VAE架構(gòu),時(shí)間與空間壓縮比達(dá)到高達(dá) 4×16×16,信息壓縮率提升至 64,均實(shí)現(xiàn)了開源模型的最高水平,僅需22G顯存(單張消費(fèi)級(jí)顯卡)即可在數(shù)分鐘內(nèi)生成5秒高清視頻,是目前24幀每秒、720P像素級(jí)視頻生成速度最快的基礎(chǔ)模型。