美團技術團隊近期取得了一項重要進展,成功將DeepSeek R1模型進行了INT8精度量化,此舉極大地拓寬了該模型的應用場景。
此前,DeepSeek R1模型由于采用FP8數據格式的原生權重,導致其部署范圍受限,僅能在新款英偉達GPU上運行,而像A100這樣的老型號GPU則無法直接支持。這在一定程度上限制了模型的使用靈活性和推廣范圍。
為了打破這一局限,美團搜索和推薦平臺部門的技術人員著手對DeepSeek R1模型進行了INT8精度量化嘗試。經過不懈努力,他們發(fā)現量化后的模型在保持原有精度的基礎上,成功實現了在不同型號GPU上的部署。這意味著,現在DeepSeek R1模型不僅能夠在新款英偉達GPU上高效運行,還能在A100等老型號GPU上穩(wěn)定工作。
不僅如此,INT8量化還為DeepSeek R1模型帶來了性能上的顯著提升。與BF16相比,INT8量化后的模型在吞吐量方面實現了50%的增長,這大大降低了模型的推理成本,提高了整體運行效率。
為了讓更多開發(fā)者能夠受益于此項技術突破,美團技術團隊已經將INT8量化的代碼開源發(fā)布在LLM推理框架SGLang上。同時,量化后的DeepSeek R1模型也被上傳至Hugging Face社區(qū),供廣大開發(fā)者下載和使用。以下是模型的具體鏈接:
模型鏈接1:https://huggingface.co/meituan/DeepSeek-R1-Block-INT8
模型鏈接2:https://huggingface.co/meituan/DeepSeek-R1-Channel-INT8