吉利汽車集團(tuán)攜手階躍星辰,在技術(shù)創(chuàng)新領(lǐng)域邁出重要一步,共同宣布開源兩款領(lǐng)先的多模態(tài)大模型——Step-Video-T2V視頻生成模型與Step-Audio語音模型,此舉標(biāo)志著兩家企業(yè)在人工智能技術(shù)研發(fā)上的深度合作。
據(jù)官方詳細(xì)介紹,Step-Video-T2V視頻生成模型在全球開源視頻生成領(lǐng)域內(nèi)展現(xiàn)出了卓越的實(shí)力,無論是參數(shù)量還是模型性能均處于領(lǐng)先地位。該模型憑借強(qiáng)大的技術(shù)支撐,能夠直接生成分辨率為540P、包含204幀的高質(zhì)量視頻,為用戶帶來前所未有的視覺體驗(yàn)。
與此同時(shí),階躍Step-Audio語音模型作為業(yè)內(nèi)首款產(chǎn)品級(jí)的開源語音交互模型,其表現(xiàn)同樣令人矚目。該模型具備高度智能化特點(diǎn),能夠根據(jù)不同的場(chǎng)景需求,靈活生成包含情緒、方言、語種、歌聲及個(gè)性化風(fēng)格的語音表達(dá)。在與用戶的交互中,Step-Audio展現(xiàn)出了自然流暢、情商高的對(duì)話能力,極大地提升了用戶體驗(yàn)。
階躍Step-Audio還支持不同角色的音色克隆功能,這一創(chuàng)新技術(shù)使得模型能夠模擬出多種角色的聲音特征,進(jìn)一步豐富了語音交互的多樣性和趣味性。
在參數(shù)方面,階躍Step-Video-T2V視頻生成模型擁有高達(dá)300億的參數(shù)量,這一龐大的參數(shù)規(guī)模為其強(qiáng)大的視頻生成能力提供了堅(jiān)實(shí)的基礎(chǔ)。而Step-Audio語音模型則通過精細(xì)的模型設(shè)計(jì)和優(yōu)化,實(shí)現(xiàn)了在語音交互領(lǐng)域的突破和創(chuàng)新。
此次開源的兩款模型,不僅展示了階躍星辰與吉利汽車集團(tuán)在人工智能技術(shù)研發(fā)上的雄厚實(shí)力,也為相關(guān)行業(yè)提供了寶貴的技術(shù)資源和參考。未來,隨著這兩款模型的廣泛應(yīng)用和推廣,相信將在視頻生成和語音交互領(lǐng)域掀起新的技術(shù)浪潮。
階躍星辰與吉利汽車集團(tuán)的此次合作,也預(yù)示著雙方在人工智能領(lǐng)域?qū)⒄归_更加深入和廣泛的探索與合作。未來,雙方將繼續(xù)攜手共進(jìn),共同推動(dòng)人工智能技術(shù)的創(chuàng)新與發(fā)展,為人類社會(huì)帶來更多的便利和驚喜。