阿里云近日宣布了一項重大舉措,正式開源其視覺生成基座模型——萬相2.1(Wan)。此次開源行動采用了極為寬松的Apache2.0協議,意味著全球開發者將能夠無限制地訪問和使用這一前沿技術。
萬相2.1模型包含14B和1.3B兩種參數規格,阿里云不僅開放了全部推理代碼,還提供了相應的權重文件。這一舉措極大地方便了開發者進行文生視頻和圖生視頻等任務的探索。開發者可以在Github、HuggingFace和魔搭社區等多個平臺上輕松下載并體驗這一模型。
據悉,14B參數的萬相模型在指令遵循、復雜運動生成、物理建模以及文字視頻生成等多個領域均展現出了卓越的性能。在評測集VBench中,萬相2.1以86.22%的總分力壓群雄,包括Sora、Luma、Pika等國內外知名模型,成功登頂。而1.3B版本的測試結果同樣令人矚目,它不僅超越了更大尺寸的開源模型,還逼近了部分閉源模型的表現。尤為該版本能夠在消費級顯卡上流暢運行,僅需8.2GB顯存即可生成480P視頻,這對于二次模型開發和學術研究來說無疑是一個巨大的福音。
萬相視頻模型采用了先進的DiT架構和線性噪聲軌跡Flow Matching范式,并在此基礎上研發了高效的因果3D VAE和可擴展的預訓練策略等創新技術。特別是在3D VAE方面,萬相團隊通過實現特征緩存機制,成功支持了任意長度視頻的編碼和解碼,實現了對無限長1080P視頻的高效處理。通過將空間降采樣壓縮提前,萬相模型在不損失性能的前提下,進一步減少了29%的推理時內存占用,從而提升了整體運行效率。
在多個維度的測試中,萬相模型均展現出了業界領先的表現。特別是在運動質量、視覺質量、風格和多目標等14個主要維度以及26個子維度的測試中,萬相模型斬獲了5項第一,充分證明了其強大的技術實力和廣泛的應用潛力。
對于想要深入了解和使用萬相模型的開發者來說,以下是一些開源地址的鏈接:
Github:https://github.com/Wan-Video
HuggingFace:https://huggingface.co/Wan-AI
魔搭社區:https://modelscope.cn/organization/Wan-AI