近期,騰訊元寶官方在微博上積極回應了用戶的反饋,透露了即將上線的新功能——語音播報的暫停與續播能力。這一舉措顯示了騰訊元寶對用戶需求的快速響應和改進決心。
與此同時,騰訊混元在科技領域也取得了新的突破。在3月6日,騰訊混元正式推出了圖生視頻模型,并宣布該模型將對外開源。伴隨著這一消息的發布,對口型與動作驅動等新穎玩法也隨之上線,用戶甚至可以生成背景音效及2K高質量視頻。
據詳細介紹,圖生視頻模型的能力令人矚目。用戶只需上傳一張圖片,并簡要描述畫面如何運動、鏡頭如何調度等創意想法,騰訊混元即可根據這些指令,將靜態圖片轉化為生動有趣的5秒短視頻。更令人驚喜的是,這一過程還能自動匹配并添加背景音效,使得視頻更加完整和吸引人。
不僅如此,圖生視頻模型還支持對口型和動作驅動功能。用戶只需上傳一張人物圖片,并輸入想要讓圖片中人物“說”或“唱”的文字或音頻,圖片中的人物就能仿佛被賦予了生命,開始“說話”或“唱歌”。而通過動作驅動功能,用戶甚至可以一鍵生成與指定舞蹈動作相匹配的跳舞視頻,為創作帶來了更多可能。
目前,廣大用戶已經可以通過混元AI視頻官網親身體驗這一創新技術。同時,企業和開發者也有機會在騰訊云平臺上申請使用API接口,將圖生視頻模型集成到自己的產品或服務中,進一步拓展其應用場景和商業價值。
騰訊混元方面表示,此次開源的圖生視頻模型是其文生視頻模型開源工作的進一步延續。該模型的總參數量達到了130億,適用于多種類型的角色和場景,無論是寫實視頻制作、動漫角色生成,還是CGI角色制作,都能展現出出色的表現力和實用性。