騰訊混元近期在圖生視頻技術領域取得了新突破,正式推出了全新的圖生視頻模型,并向公眾開放源代碼。與此同時,一系列創意玩法如對口型與動作驅動等也隨之亮相,為用戶提供了生成背景音效及2K高清視頻的便捷工具。
該技術的核心在于,用戶僅需上傳一張靜態圖片,并簡單描述期望的畫面動態和鏡頭變化,混元便能根據指令將圖片轉化為生動的5秒短視頻,并自動匹配背景音效,使圖片煥發新生。
更令人驚嘆的是,用戶只需上傳人物圖片,并輸入希望角色“對口型”的文字或音頻,圖片中的人物便能仿佛被賦予生命,開始“說話”或“唱歌”。通過“動作驅動”功能,用戶還能一鍵生成與指定舞蹈同步的視頻,極大地豐富了創作的可能性。
目前,這些創新功能已通過混元AI視頻官網向廣大用戶開放體驗。對于企業和開發者而言,他們還可以在騰訊云平臺上申請使用API接口,將這項技術融入自己的產品或服務中。
騰訊混元方面表示,此次開源的圖生視頻模型是其在文生視頻模型開源工作上的進一步拓展。該模型擁有130億參數,具備廣泛的適用性,能夠應對多種角色和場景的視頻生成需求,無論是寫實風格的視頻制作,還是動漫或CGI角色的創作,都能游刃有余。
開源內容涵蓋了模型的權重、推理代碼以及LoRA訓練代碼,為開發者提供了基于混元訓練專屬LoRA等衍生模型的強大支持。現在,開發者可以在Github、HuggingFace等主流社區輕松下載并體驗這一前沿技術。
隨著騰訊混元圖生視頻模型的開源,這一技術有望激發更多創意靈感,推動視頻創作領域的革新與發展。
騰訊混元還計劃在未來持續推出更多創新功能和技術升級,為用戶和開發者帶來更加豐富多樣的視頻創作體驗。