智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡媒體

          智源發(fā)布Emu3:原生多模態(tài)世界模型,能否一統(tǒng)圖像文本視頻?

             發(fā)布時間:2024-10-22 07:21 作者:趙云飛

          智源研究院近期推出了全新的原生多模態(tài)世界模型——Emu3,該模型在文本、圖像和視頻三種模態(tài)數(shù)據(jù)的理解和生成上展現(xiàn)出卓越能力。其獨特之處在于,僅需基于下一個token預測,無需依賴擴散模型或組合方法,便能實現(xiàn)多模態(tài)數(shù)據(jù)的統(tǒng)一處理。

          在圖像生成任務中,Emu3的表現(xiàn)優(yōu)于SD-1.5與SDXL模型,獲得了人類偏好評測的高度認可。同時,在視覺語言理解任務中,Emu3也展現(xiàn)出了強大的實力,其對于12項基準測試的平均得分超越了LlaVA-1.6。在視頻生成任務中,Emu3同樣表現(xiàn)出色,VBench基準測試得分高于OpenSora 1.2。

          Emu3配備了一個強大的視覺tokenizer,能夠?qū)⒁曨l和圖像轉(zhuǎn)換為離散token,這些token可以與文本tokenizer輸出的離散token一同送入模型中。這一特性為Any-to-Any任務提供了更加統(tǒng)一的研究范式。

          Emu3的研究結(jié)果充分證明了下一個token預測作為多模態(tài)模型范式的強大潛力,它不僅能實現(xiàn)超越語言本身的大規(guī)模多模態(tài)學習,還能在多模態(tài)任務中取得先進性能。目前,Emu3已開源關鍵技術和模型,為相關研究提供了有力支持。

           
           
          更多>同類內(nèi)容
          全站最新
          熱門內(nèi)容
          本欄最新
           
          智快科技微信賬號
          ITBear微信賬號

          微信掃一掃
          加微信拉群
          電動汽車群
          科技數(shù)碼群

          日韩精品在线视频| 91亚洲国产成人久久精品网站| 精品免费久久久久久久| 国内精品99亚洲免费高清| 国产精品99精品一区二区三区| 99久久成人国产精品免费| 精品国产日韩一区三区| 日本尤物精品视频在线看| 久草热久草热线频97精品| 国产精品第一区揄拍| 国农村精品国产自线拍| 色哟哟国产精品免费观看| 国产精品福利尤物youwu| 国产精品美女网站在线观看| 日韩精品一区二区三区不卡| 国产精品秘入口18禁麻豆免会员 | 337P日本欧洲亚洲大胆精品 | 久热爱精品视频线路一| 91麻豆精品国产自产在线| 国99精品无码一区二区三区| 国产丝袜在线精品丝袜| 久久这里只有精品视频99| 亚洲乱码日产精品a级毛片久久| 午夜福利麻豆国产精品| 精品久久久无码人妻中文字幕| 久久久久人妻精品一区二区三区| 国产精品日本一区二区在线播放| 91精品国产9l久久久久| 精品国产青草久久久久福利| 亚洲国产精品成人久久蜜臀| 日韩福利在线视频| 亚洲AV日韩AV永久无码免下载| 97久久国产亚洲精品超碰热 | 国语自产精品视频在线完整版| 网友自拍区视频精品| 国产成人精品免费视频大| 69国产成人精品午夜福中文| 中文精品久久久久人妻| 精品国产呦系列在线观看免费 | 日本三区精品三级在线电影| 精品免费国产一区二区三区|