近日,阿里云宣布了一項重大舉措,其視頻生成大模型萬相2.1(Wan)已正式向全球開發者開放源代碼。
此次開源遵循Apache2.0協議,涵蓋了14B和1.3B兩種參數規格的全部推理代碼與權重。無論是文字生成視頻還是圖片生成視頻的任務,開發者都可以在Github、HuggingFace以及魔搭社區輕松下載并體驗。
據悉,14B版本的萬相模型在多個方面展現了卓越的性能,包括指令遵循、復雜運動生成、物理建模以及文字視頻生成等。在權威評測集Vbench中,萬相2.1以86.22%的總分,顯著超越了Sora、Luma、Pika等國內外知名模型。
而1.3B版本的萬相模型同樣不容小覷,它不僅超越了部分更大尺寸的開源模型,其表現甚至與一些閉源模型相近。更為重要的是,該版本能夠在消費級顯卡上流暢運行,僅需8.2GB顯存即可生成480P的視頻,這對于二次模型開發和學術研究來說,無疑是一個巨大的福音。
這一開源舉措不僅展示了阿里云在視頻生成技術領域的深厚積累,更為全球開發者提供了一個寶貴的資源,有望推動視頻生成技術的進一步發展與創新。