阿里通義千問于近日正式宣布,開源了其最新的Qwen2.5-1M模型及其配套的推理框架。這一舉措標(biāo)志著通義千問在人工智能領(lǐng)域邁出了重要一步。
據(jù)悉,通義千問此次發(fā)布的開源模型包括Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M兩個版本。尤為引人注目的是,這兩個版本首次將Qwen模型的上下文長度擴(kuò)展到了1M(即100萬標(biāo)記),這在業(yè)界尚屬首次。
為了幫助開發(fā)者更好地部署和應(yīng)用這些模型,Qwen團(tuán)隊還開源了基于vLLM的推理框架。該框架集成了稀疏注意力方法,使得在處理長達(dá)1M標(biāo)記的輸入時,推理速度有了顯著提升,達(dá)到了3倍至7倍的增長。
在長上下文任務(wù)方面,Qwen2.5-1M系列模型展現(xiàn)出了強大的能力。在一項名為“大海撈針”的任務(wù)中,這些模型能夠準(zhǔn)確地從1M長度的文檔中檢索出隱藏信息。盡管7B版本的模型在極少數(shù)情況下出現(xiàn)了錯誤,但整體上,其表現(xiàn)仍然令人矚目。
為了全面評估Qwen2.5-1M系列模型在長上下文任務(wù)中的表現(xiàn),研究團(tuán)隊還選擇了RULER、LV-eval和LongbenchChat等多個測試集進(jìn)行測試。測試結(jié)果顯示,這些模型在大多數(shù)任務(wù)中都顯著優(yōu)于之前的128K版本,特別是在處理超過64K長度的任務(wù)時,其優(yōu)勢更加明顯。
Qwen2.5-14B-Instruct-1M模型不僅在性能上擊敗了Qwen2.5-Turbo,還在多個數(shù)據(jù)集上穩(wěn)定超越了GPT-4o-mini。這一結(jié)果無疑為長上下文任務(wù)提供了更多開源模型的選擇。
除了長上下文任務(wù)外,Qwen2.5-1M系列模型在短序列任務(wù)上的表現(xiàn)同樣出色。測試結(jié)果顯示,Qwen2.5-7B-Instruct-1M和Qwen2.5-14B-Instruct-1M在短文本任務(wù)上的表現(xiàn)與其128K版本相當(dāng),這意味著增加長序列處理能力并沒有犧牲其基本能力。
與GPT-4o-mini相比,Qwen2.5-14B-Instruct-1M和Qwen2.5-Turbo在短文本任務(wù)上實現(xiàn)了相近的性能,但它們的上下文長度卻是GPT-4o-mini的八倍。這一結(jié)果進(jìn)一步證明了Qwen2.5-1M系列模型在短序列任務(wù)上的強大實力。