騰訊混元近期在其官方微信公眾號上宣布了一項重大進展,推出了圖生視頻模型,并向公眾開放源代碼。這一創新技術不僅為用戶帶來了對口型與動作驅動等趣味玩法,還實現了背景音效的自動生成以及2K高清視頻的輕松制作。
借助圖生視頻模型,用戶只需上傳一張靜態圖片,并簡單描述期望的畫面動態效果和鏡頭運動軌跡,混元便能根據指令將圖片轉化為一段生動的5秒短視頻,并自動匹配合適的背景音效。更有趣的是,用戶上傳人物圖片并輸入希望“對口型”的文字或音頻后,圖片中的人物竟能“開口說話”或“歡快歌唱”。利用“動作驅動”功能,用戶還能一鍵生成與他人同款的跳舞視頻。
體驗這一前沿技術的渠道十分便捷,用戶只需訪問混元AI視頻官網即可開始創作。而對于企業和開發者而言,他們可以在騰訊云平臺上申請API接口,將這一技術融入自己的產品或服務中。
此次開源的圖生視頻模型,是騰訊混元在文生視頻模型開源基礎上的又一力作。該模型的總參數量高達130億,廣泛應用于寫實視頻、動漫角色以及CGI角色等多種場景的視頻生成。開源內容涵蓋了模型權重、推理代碼以及LoRA訓練代碼,支持開發者基于混元訓練專屬的LoRA等衍生模型。目前,這一模型已在Github、HuggingFace等主流開發者社區上線,供開發者下載并體驗。
據混元開源技術報告顯示,其視頻生成模型展現出極高的靈活性和擴展性。圖生視頻和文生視頻在相同數據集上進行預訓練,模型在保持超寫實畫質、流暢演繹大幅度動作以及原生鏡頭切換等特性的同時,還能捕捉到豐富的視覺和語義信息。結合圖像、文本、音頻和姿態等多種輸入條件,模型實現了對生成視頻的多維度精準控制。
截至目前,騰訊混元的開源系列模型已全面覆蓋文本、圖像、視頻和3D生成等多個領域,在Github平臺上累計吸引了超過2.3萬名開發者的關注和點贊。