近日,DeepSeek開源周活動進入了第四天,與前幾日接連不斷的開源項目發布相比,這一天的發布略顯姍姍來遲,讓眾多期待已久的觀眾稍感焦急。然而,這份等待最終被證明是值得的,因為DeepSeek在這一天一次性揭曉了兩項重量級的開源技術。
首先亮相的是DualPipe技術,這是一項基于DeepSeek-V3技術報告提出的創新算法,被命名為“雙向管道并行算法”。該算法通過實現計算通信階段的雙向重疊,即在向后計算和向前計算的同時進行數據傳輸,顯著減少了深度學習訓練過程中的空閑時間。DualPipe還引入了一種全新的流水線氣泡優化調度策略,這一策略能夠有效緩解傳統管道并行技術中普遍存在的“氣泡”問題,從而提升了硬件資源的整體使用效率。據悉,該算法在GitHub平臺一經發布,便迅速收獲了544個收藏。
緊接著,DeepSeek又推出了EPLB技術,即“專家并行負載均衡器”。這項技術具有三大顯著特點:動態負載均衡、分層與全局平衡結合以及流量優化。在動態負載均衡方面,EPLB基于混合專家(MoE)架構,通過復制高負載專家并采用啟發式算法進行任務分配,有效優化了GPU之間的負載分布。在分層與全局平衡結合上,該技術不僅能夠在單個節點內進行分層的負載管理,還能實現跨節點的全局負載均衡,顯著減少了GPU的閑置時間。EPLB在流量優化方面同樣表現出色,它能夠在保持負載均衡的同時,通過調整專家的分布來降低節點間的數據通信量,從而進一步提升了整體訓練效率。