在科技界的一次重要突破中,智譜公司于近日正式揭曉了其“智譜2025開源年”計劃的首個核心成果——CogView4,這是一款前所未有的開源文本生成圖像模型,尤其引人矚目的是其支持生成漢字的能力。
CogView4在DPG-Bench這一權威基準測試中,憑借卓越的表現榮登榜首,標志著它在開源文本到圖像生成領域的領先地位。更為特別的是,CogView4遵循Apache 2.0協議,成為首個以此協議開放的圖像生成模型,為開發者提供了更靈活的使用空間。
目前,CogView4的最新版本——CogView4-0304已經向公眾開放源代碼,并將于3月13日正式登陸智譜清言平臺(chatglm.cn)。這一舉措無疑將激發更多創新應用,推動AI技術在圖像生成領域的深入發展。
在性能表現上,CogView4展現出了強大的復雜語義理解和指令執行能力。它不僅能夠處理任意長度的中英文輸入,還能根據給定的范圍生成任意分辨率的圖像。CogView4在文字生成方面也表現出色,進一步拓寬了其應用場景。
DPG-Bench基準測試的結果充分證明了CogView4在復雜語義對齊和指令跟隨方面的卓越能力。這一測試專注于評估模型在這些關鍵領域的表現,而CogView4以優異的成績脫穎而出。
對于中文用戶而言,CogView4無疑是一個重大利好。它不僅支持中英文雙語提示詞輸入,還特別擅長理解和遵循中文提示詞。作為首個能夠在生成的圖像中包含漢字的開源文本生成圖像模型,CogView4將極大地滿足廣告、短視頻等領域的創意需求,推動中文內容創作的多元化發展。
在技術層面,CogView4采用了創新的雙語能力GLM-4編碼器,替代了傳統的純英文T5編碼器。通過中英雙語圖文數據的訓練,CogView4成功實現了雙語提示詞輸入的能力。這一技術革新不僅提升了模型的泛化能力,也為多語言用戶提供了更加便捷的使用體驗。
CogView4還支持任意長度的提示詞輸入,并能夠在給定范圍內生成任意分辨率的圖像。這一特性不僅賦予了用戶更大的創作自由度,也顯著提高了模型的訓練效率。CogView4通過混合訓練范式,實現了文本描述和圖像生成的無縫對接。
展望未來,智譜公司計劃繼續加強CogView4的生態支持,陸續推出ControlNet、ComfyUI等功能模塊,并為用戶提供全套的微調工具包。這些舉措將進一步豐富CogView4的功能和應用場景,推動其在AI圖像生成領域的持續領先。