谷歌DeepMind團隊與麻省理工學院(MIT)合作推出了一款名為“Fluid”的新模型,該模型在文生圖領(lǐng)域取得了顯著成果。據(jù)科技媒體The Decoder報道,F(xiàn)luid模型在參數(shù)規(guī)模達到105億時,能夠生成最佳的圖像效果。
在文生圖領(lǐng)域,自回歸模型與擴散模型一直存在競爭。擴散模型通過迭代減少隨機噪聲來生成高質(zhì)量數(shù)據(jù),而自回歸模型則依賴于序列中的前面元素來預(yù)測下一個元素。
Fluid模型之所以能夠在文生圖領(lǐng)域脫穎而出,關(guān)鍵在于其采用了連續(xù)tokens和隨機生成順序兩個創(chuàng)新設(shè)計。連續(xù)tokens能夠更精確地圖像信息存儲,減少信息丟失,而隨機生成順序則讓模型在每一步都能預(yù)測任意位置的多個像素,從而更好地理解整體圖像結(jié)構(gòu)。
在重要基準測試中,F(xiàn)luid模型超越了Stable Diffusion 3擴散模型和谷歌此前的Parti自回歸模型。與Parti相比,F(xiàn)luid在參數(shù)規(guī)模遠小于Parti的情況下,仍能在MS-COCO上達到相同的FID分數(shù)。