吉利汽車(chē)集團(tuán)與階躍星辰攜手,向全球開(kāi)發(fā)者開(kāi)放兩大創(chuàng)新多模態(tài)大模型。這一里程碑式的合作標(biāo)志著雙方在算力算法、場(chǎng)景訓(xùn)練等領(lǐng)域的深度合作取得了顯著成果,共同推動(dòng)了人工智能技術(shù)的邊界。
在此次開(kāi)源行動(dòng)中,階躍星辰的Step系列多模態(tài)大模型成為焦點(diǎn)。其中,階躍Step-Video-T2V作為全球參數(shù)量最大、性能最優(yōu)的開(kāi)源視頻生成模型,其參數(shù)量高達(dá)300億,能夠直接生成高質(zhì)量的視頻,分辨率達(dá)到540P,每秒幀數(shù)高達(dá)204幀。這一突破性技術(shù)確保了生成視頻的高信息密度和一致性,為用戶(hù)提供了前所未有的視頻創(chuàng)作體驗(yàn)。用戶(hù)現(xiàn)在即可通過(guò)躍問(wèn)APP體驗(yàn)這一先進(jìn)技術(shù)。
階躍Step-Video-T2V在復(fù)雜場(chǎng)景、人物美感、視覺(jué)創(chuàng)意等方面展現(xiàn)出強(qiáng)大的生成能力,其語(yǔ)義理解和指令遵循能力尤為突出。為了全面評(píng)測(cè)這一模型的性能,階躍星辰還發(fā)布了針對(duì)文生視頻質(zhì)量的新基準(zhǔn)數(shù)據(jù)集Step-Video-T2V-eval,該測(cè)試集涵蓋了11個(gè)內(nèi)容類(lèi)別,旨在全面評(píng)估生成視頻的質(zhì)量。評(píng)測(cè)結(jié)果顯示,階躍Step-Video-T2V在多個(gè)關(guān)鍵指標(biāo)上均顯著超越現(xiàn)有開(kāi)源視頻模型。
與此同時(shí),階躍星辰還推出了行業(yè)內(nèi)首款產(chǎn)品級(jí)開(kāi)源語(yǔ)音交互模型——階躍Step-Audio。這款模型能夠根據(jù)不同的場(chǎng)景需求生成情緒、方言、語(yǔ)種等多樣化的語(yǔ)音表達(dá),實(shí)現(xiàn)高質(zhì)量對(duì)話(huà)。其生成的語(yǔ)音具有超自然、高情商等特征,能夠滿(mǎn)足影視娛樂(lè)、社交、游戲等多個(gè)行業(yè)的應(yīng)用需求。在主流公開(kāi)測(cè)試集中,階躍Step-Audio的性能均位列第一,特別是在漢語(yǔ)水平考試六級(jí)評(píng)測(cè)中表現(xiàn)尤為突出。
吉利汽車(chē)集團(tuán)CEO淦家閱表示,吉利一直致力于成為智能汽車(chē)AI科技的引領(lǐng)者和普及者。通過(guò)構(gòu)建端到端的自研體系和生態(tài)聯(lián)盟,吉利已經(jīng)形成了完善的智能吉利科技生態(tài)網(wǎng)。此次與階躍星辰的合作,將進(jìn)一步推動(dòng)吉利在智能駕駛、智能座艙等方面的技術(shù)創(chuàng)新,為用戶(hù)提供更智能、更高階的出行體驗(yàn)。
階躍星辰創(chuàng)始人、CEO姜大昕博士也強(qiáng)調(diào)了開(kāi)源的重要性。他表示,階躍星辰一直以實(shí)現(xiàn)通用人工智能(AGI)為目標(biāo),而開(kāi)源是實(shí)現(xiàn)這一目標(biāo)的關(guān)鍵途徑。通過(guò)開(kāi)源,階躍星辰希望能夠與全球開(kāi)發(fā)者共同分享技術(shù)成果,推動(dòng)多模態(tài)模型技術(shù)的發(fā)展,并期待與社區(qū)開(kāi)發(fā)者共同拓展模型技術(shù)的邊界。