近日,國產AI巨頭月之暗面推出了其最新研發成果——視覺思考模型k1。這一創新模型以強化學習為核心技術,實現了端到端的圖像理解與思維鏈擴展,不僅在數學領域展現出了卓越能力,還成功跨越至物理、化學等基礎科學領域。
目前,k1模型已全面融入Kimi智能助手的Android、iPhone應用及網頁平臺kimi.com中,用戶只需在最新版本的手機APP或網頁端Kimi+頁面找到“Kimi視覺思考版”,即可輕松通過拍照或上傳圖片進行體驗。
據官方數據,在基礎科學領域的基準測試中,k1模型的表現尤為亮眼,超越了包括OpenAI的o1、GPT-4o以及Claude 3.5 Sonnet在內的全球頂尖模型。這一成績不僅彰顯了k1在圖像理解與科學推理上的強大實力,也標志著國產AI技術在國際舞臺上的又一重要突破。
k1模型的核心優勢在于其端到端的圖像理解與思考能力,無需依賴外部OCR或額外視覺模型,即可直接處理用戶輸入的圖像信息,并快速得出準確答案。這一特點使得k1在信息處理效率與準確性上實現了顯著提升。
從模型訓練的角度來看,k1的成功離不開其精心設計的兩個階段訓練過程。首先,通過預訓練獲得基礎模型,該模型在字符識別等關鍵任務上取得了優異成績,如在OCRBench上獲得了903分的當前最好結果。隨后,在基礎模型的基礎上進行強化學習后訓練,進一步優化了數據質量與學習效率,實現了在強化學習規模化上的新突破。
k1在MathVista-testmini、MMMU-val和DocVQA等多個基準測試集上也取得了優異成績,分數分別高達69.1、66.7和96.9,位列全球前列。這些成績充分證明了k1模型在科學推理與圖像理解方面的深厚底蘊。
然而,月之暗面也坦誠地指出了k1模型在內部測試中發現的一些局限性。例如,在分布外泛化、復雜問題成功率、噪聲場景準確率以及多輪問答效果等方面,k1仍有較大的提升空間。特別是在與OpenAI的o1系列模型相比時,k1在某些場景和泛化能力上仍存在一定的差距。