近日,阿里云旗下的通義千問團隊正式揭曉了其最新的技術成果——QwQ-32B推理模型。這款模型配備了驚人的320億參數,卻在性能上展現出了與擁有6710億參數(活躍參數370億)的DeepSeek-R1模型相媲美的實力。
QwQ-32B模型現已在Hugging Face和ModelScope兩大平臺上開源,并遵循Apache 2.0開源協議,這標志著阿里云在推動AI技術開放共享方面邁出了重要一步。
用戶可以通過Qwen Chat或通義平臺,親身體驗QwQ-32B的強大功能。在Qwen Chat中,用戶只需選擇Qwen2.5-Plus并開啟QwQ深度思考模式,即可感受其卓越的推理能力。同樣,在通義App或網頁端,用戶也能輕松選擇Qwen-QwQ-32B智能體進行互動。
盡管QwQ的名字聽起來有些俏皮可愛,但其性能卻不容小覷。阿里云對QwQ-32B進行了全面的性能測試,包括數學推理、編程能力和通用能力等多個方面。測試結果顯示,QwQ-32B在數學能力評測集AIME24和代碼能力評估平臺LiveCodeBench上的表現,與DeepSeek-R1相當,甚至在某些方面超越了后者。同時,在與o1-mini及相同尺寸的R1蒸餾模型的對比中,QwQ-32B也展現出了明顯的優勢。
在由meta首席科學家楊立昆領銜的“最難LLMs評測榜”LiveBench、谷歌提出的指令遵循能力IFeval評測集以及加州大學伯克利分校等提出的BFCL測試中,QwQ-32B的得分均超過了DeepSeek-R1,進一步證明了其強大的推理能力。
阿里云表示,QwQ-32B的推出是其在大規模強化學習(RL)以增強推理能力方面的初步嘗試。通過這一嘗試,阿里云不僅看到了擴展RL的巨大潛力,還發現了預訓練語言模型中尚未充分發掘的可能性。未來,阿里云將繼續致力于開發下一代Qwen模型,計劃將更強大的基礎模型與依托規模化計算資源的RL相結合,以推動人工智能向人工通用智能(AGI)的邁進。
阿里云還在積極探索將智能體與RL集成的可能性,以實現長時推理。這一目標的實現,將有助于通過推理時間的擴展來釋放更高的智能水平,為人工智能的發展注入新的活力。
除了QwQ-32B外,阿里云通義千問團隊還擁有其他強大的模型,如QvQ等,它們共同構成了阿里云在AI領域的強大陣容。