騰訊近期宣布了一項(xiàng)重大技術(shù)突破,其混元大模型正式上線并開源了一項(xiàng)引人注目的能力——文生視頻。這款大模型擁有高達(dá)130億的參數(shù)量,并支持中英文雙語輸入,為用戶帶來了前所未有的視頻生成體驗(yàn)。
在騰訊的展示中,一款由混元大模型生成的視頻令人印象深刻。視頻中,以肩攝視角切入,清晨的陽光透過紗簾溫柔地灑落在一位老爺爺身上。他正專注地在木工臺前雕刻,攝影機(jī)緩緩?fù)七M(jìn),特寫鏡頭下,老爺爺布滿皺紋的手指與紛飛的木屑清晰可見。背景中,老房間內(nèi)的木工工具整齊排列,墻上掛滿了已完成的作品,整個(gè)畫面充滿了生活氣息與歲月的痕跡。
騰訊官方宣稱,這款混元視頻生成大模型能夠生成“超寫實(shí)”的高質(zhì)量視頻,畫面穩(wěn)定且不易變形。尤其在涉及鏡面或鏡子場景的視頻中,該模型能夠?qū)崿F(xiàn)鏡面反射動(dòng)作與外部場景的完全同步,光影反射效果也基本符合物理規(guī)律,使得生成的視頻更加逼真。
另一段視頻則展示了沖浪者在超大水管浪尖上起跳的壯觀場景。攝影機(jī)從海浪內(nèi)部穿越而出,捕捉到了陽光透過海水的瞬間,水花在空中形成了完美的弧線,沖浪板劃過水面留下的軌跡清晰可見。最終畫面定格在沖浪者穿越水簾的完美瞬間,令人嘆為觀止。
還有一段手持長焦鏡頭跟拍的視頻,展現(xiàn)了磨砂金屬車廂在高速行駛中留下的光帶。隧道燈光斷續(xù)閃過,映照出乘客若隱若現(xiàn)的側(cè)臉。防護(hù)玻璃上的水珠隨著速度扭曲變形,構(gòu)建出一個(gè)充滿神秘感與光影變化的城市地下迷宮。
據(jù)了解,騰訊混元視頻生成大模型采用了先進(jìn)的DiT架構(gòu),并適配了新一代文本編碼器,以提升語義遵循能力。這使得模型能夠更好地應(yīng)對多個(gè)主體的描繪,實(shí)現(xiàn)更加細(xì)致的指令和畫面呈現(xiàn)。
在騰訊元寶App中,用戶已進(jìn)入“AI應(yīng)用”并選擇“AI視頻”功能,即可申請?jiān)囉眠@一前沿技術(shù)。騰訊表示,本次開源包含了模型權(quán)重、推理代碼、模型算法等完整模型內(nèi)容,旨在為企業(yè)與個(gè)人開發(fā)者提供免費(fèi)使用和開發(fā)生態(tài)插件的機(jī)會(huì)。