近日,字節(jié)跳動的研究團(tuán)隊向公眾展示了一項前沿的AI技術(shù)——一款名為OmniHuman-1的模型,該模型能夠僅憑一張圖片和一段音頻,自動生成半身乃至全身的動畫視頻。
據(jù)字節(jié)跳動介紹,與市面上那些僅能生成面部或上半身動畫的深度偽造技術(shù)相比,OmniHuman-1展現(xiàn)出了更為強(qiáng)大的能力。它不僅能生成高度逼真的全身動畫,還能確保動畫中的手勢和面部表情與輸入的語音或音樂完美同步,為用戶帶來前所未有的視覺體驗。
為了驗證OmniHuman-1的實力,字節(jié)跳動在其OmniHuman-lab項目頁面上發(fā)布了一系列測試視頻。這些視頻中,AI不僅成功“復(fù)刻”了一場TED演講,還創(chuàng)造了一個栩栩如生的、會說話的阿爾伯特·愛因斯坦形象,令人嘆為觀止。
在本周一發(fā)布的一篇論文中,字節(jié)跳動進(jìn)一步闡述了OmniHuman-1的技術(shù)特點。該模型支持多種體型和畫面比例,能夠根據(jù)輸入的數(shù)據(jù)自適應(yīng)調(diào)整,從而生成更加自然流暢的視頻效果。這一特性使得OmniHuman-1在動畫生成領(lǐng)域獨樹一幟。
據(jù)了解,OmniHuman-1的出色表現(xiàn)得益于其龐大的訓(xùn)練數(shù)據(jù)集。字節(jié)跳動表示,該模型基于約19000小時的人類運動數(shù)據(jù)進(jìn)行訓(xùn)練,因此具備了強(qiáng)大的泛化能力。它能夠在內(nèi)存限制內(nèi)生成任意長度的視頻,并適應(yīng)不同的輸入信號,為用戶提供了極大的靈活性。
研究人員還對OmniHuman-1的真實性和準(zhǔn)確性給予了高度評價。他們指出,與其他同類動畫工具相比,OmniHuman-1在生成動畫時更加精準(zhǔn)、自然,為用戶帶來了更加逼真的視覺享受。然而,目前該工具仍處于研發(fā)階段,暫不提供下載或相關(guān)服務(wù),未來是否會面向公眾開放尚不得而知。