近期,科技界迎來了一項令人矚目的新進展——DeepSeek公司在其預定的“開源周”活動中,正式揭曉了其最新研發成果:DeepGEMM開源項目。該項目一經發布,便迅速在網絡上引發了熱烈反響,累計瀏覽量迅速攀升至2.1萬次,彰顯了其在全球技術領域的影響力。
DeepGEMM是一款專為FP8高效通用矩陣乘法(GEMM)設計的庫,旨在滿足廣泛矩陣計算需求,特別是在混合專家(MoE)分組場景中展現出卓越性能。通過動態優化資源分配,DeepGEMM能夠顯著提升計算效率,為深度學習等應用場景提供強有力的支持。
據悉,DeepGEMM基于CUDA架構開發,融入了先進的輕量級即時編譯(JIT)技術。這一創新設計使得DeepGEMM能夠在運行時動態編譯內核,無需繁瑣的預編譯和安裝過程,為用戶提供了極大的便利。
DeepGEMM的推出,不僅彰顯了DeepSeek在高性能計算領域的深厚實力,更體現了其致力于技術開放與合作的堅定信念。該項目是DeepSeek“開源周”活動的第三項重要成果,此前已相繼發布了FlashMLA(高效解碼內核)和DeepEP(專家并行通信庫)兩個開源項目。
此次“開源周”活動自2月24日啟動,將持續至2月28日。活動期間,DeepSeek計劃發布多項開源項目,旨在通過共享技術成果,推動整個行業的創新與發展。DeepGEMM作為其中的佼佼者,更是備受矚目。
DeepGEMM特別針對Hopper架構GPU(如H800)進行了深度優化,不僅確保了高性能表現,還有效控制了成本。這一優化策略無疑為DeepSeek-V3/R1模型的訓練與推理提供了更為簡潔高效的底層支持。