吉利汽車集團與其科技生態戰略合作伙伴階躍星辰近日攜手宣布,兩款革命性的多模態大模型——階躍Step系列,正式面向全球開發者開放源代碼。開發者們即刻起可通過躍問APP探索這一創新技術。
階躍Step-Video-T2V,作為一款視頻生成模型,不僅在參數量上達到了驚人的300億,更在性能上樹立了新的標桿,被譽為全球范圍內最頂尖的開源視頻生成模型。它能夠直接產出204幀、540p高清視頻,且在復雜動態場景、人物美感塑造、視覺創意、文字到視頻的轉化、雙語輸入處理以及鏡頭語言運用等方面,均展現出了卓越的能力。其語義理解與指令執行精度同樣令人矚目。
為了科學評估文生視頻的質量,階躍星辰還推出了Step-Video-T2V-eval基準數據集,該數據集包含128條基于真實用戶反饋的中文評測問題,覆蓋了運動、風景、動物、概念組合、超現實、人物、3D動畫、電影攝影等11個內容領域。評測結果顯示,階躍Step-Video-T2V在指令遵循、運動流暢性、物理邏輯合理性及美學表現上,均顯著優于當前市場上的其他開源視頻模型。
與此同時,階躍Step-Audio作為行業內首款產品級開源語音交互大模型,其表現同樣令人驚艷。它能夠根據場景需求,靈活生成包含情緒、方言、語種、歌聲及個性化風格的語音表達,實現與用戶的高質量自然對話。該模型生成的語音不僅自然流暢,且具備高情商特征,能夠進行音色復刻與角色扮演,完美適配影視娛樂、社交、游戲等多個行業的應用場景。
在LlaMA Question、Web Questions等五大主流測試集中,階躍Step-Audio的表現均位居榜首。特別是在HSK-6(漢語水平考試六級)評測中,其展現出的中文理解與應用能力尤為突出,被譽為最懂中國話的開源語音交互大模型。階躍星辰還自建了Stepeval-Audio-360基準測試體系,從九個維度對開源語音模型進行全面評估。人工評測結果顯示,階躍Step-Audio在各項能力上均表現出色,均衡且超越了此前市場上的最佳開源語音模型。
階躍星辰的成就也引起了業界的廣泛關注。Hugging Face的聯合創始人兼CEO Clement Delangue對階躍星辰的大模型給予了高度評價,認為其在人工智能領域具有巨大的潛力,有望成為下一個行業領袖。
階躍星辰公司成立于2023年4月,總部位于上海,由微軟前全球副總裁姜大昕領銜。公司致力于推動通用人工智能(AGI)的發展,自2024年下半年以來,其多模態API的調用量實現了超過45倍的增長,彰顯了其在人工智能領域的強勁實力與廣闊前景。