阿里云通義千問團隊近日宣布了一項重大進展,正式推出了其最新的推理模型QwQ-32B,并宣布該模型已全面開源。這款新模型擁有驚人的320億參數(shù),但其性能卻能與參數(shù)規(guī)模高達6710億的DeepSeek-R1相抗衡,其中DeepSeek-R1實際激活的參數(shù)為370億。
阿里Qwen團隊在QwQ-32B中融入了與Agent相關的能力,這一創(chuàng)新使得模型能夠在使用各種工具的同時,展現(xiàn)出批判性思考的能力,并能根據環(huán)境反饋靈活調整其推理過程。這一特性無疑為模型的應用場景開辟了更廣闊的空間。
為了全面評估QwQ-32B的性能,團隊進行了一系列基準測試。在數(shù)學推理方面,QwQ-32B在AIME24評測集上的表現(xiàn)與DeepSeek-R1不相上下,同時遠超o1-mini以及相同尺寸的R1蒸餾模型。在編程能力方面,通過LiveCodeBench的評測,QwQ-32B同樣展現(xiàn)出了與DeepSeek-R1相當?shù)膶嵙ΑT谟蒻eta首席科學家楊立昆主導的“最難LLMs評測榜”LiveBench、谷歌提出的指令遵循能力IFeval評測集,以及加州大學伯克利分校等提出的BFCL測試中,QwQ-32B的得分均超過了DeepSeek-R1,充分證明了其卓越的性能和廣泛的應用潛力。
目前,QwQ-32B已經成功在Hugging Face和ModelScope平臺上開源,并采用了Apache 2.0開源協(xié)議,這一舉措無疑將為全球AI領域的研究者和開發(fā)者提供更多的選擇和機會,共同推動AI技術的發(fā)展和應用。