圖森未來近期在人工智能領域邁出了重要一步,正式推出了名為“Ruyi”的圖生視頻大模型,并慷慨地將Ruyi-Mini-7B版本向公眾開源,用戶現可通過huggingface平臺輕松下載并使用這一創新工具。
Ruyi是一款基于DiT架構的視頻生成模型,其設計理念獨特,由兩大核心模塊構成:一是Casual VAE模塊,負責高效處理視頻數據的壓縮與解壓;二是Diffusion Transformer模塊,專注于生成經過壓縮的視頻內容。這款模型擁有約71億個參數,經過大量訓練,涉及約2億個視頻片段,旨在為用戶提供前所未有的視頻生成體驗。
圖森未來在設計Ruyi時,充分考慮了用戶的實際需求,特別優化了模型在消費級顯卡上的運行效率,如RTX 4090等,確保用戶無需高端硬件也能輕松體驗。Ruyi還配備了詳盡的部署指南和ComfyUI工作流,即便是初次接觸的用戶也能迅速上手。
Ruyi的功能性同樣令人矚目,支持多分辨率、多時長的視頻生成,分辨率范圍從384*384到1024*1024,任意長寬比,最長可達120幀或5秒的視頻內容。用戶還可通過控制首幀和首尾幀來定制視頻,最多可設置5個起始幀和5個結束幀,通過循環疊加,實現任意長度的視頻創作。
更Ruyi還提供了4檔運動幅度控制和5種鏡頭控制選項,包括上、下、左、右移動和靜止,使用戶能夠更精細地調控畫面變化和鏡頭切換,為視頻創作增添更多可能性。
然而,Ruyi目前仍存在一些不足,如手部動作可能顯得不夠自然,多人場景中的面部細節有時會出現失真,以及不可預測的轉場效果。圖森未來對此表示,團隊正在積極改進這些缺點,并計劃在未來的更新中逐步修復。
圖森未來強調,Ruyi的發布旨在利用大模型技術縮短動漫和游戲內容的開發周期,降低制作成本。目前,Ruyi已經能夠根據用戶輸入的關鍵幀,自動生成接下來的5秒內容,或根據兩個關鍵幀生成中間的過渡畫面,極大地提升了創作效率。未來,圖森未來還將推出更多版本的Ruyi,以滿足不同創作者的多樣化需求。
對于想要探索Ruyi-Mini-7B版本的開發者,可以訪問以下開源鏈接: