DeepSeek近日在官方社交平臺發布了一項重大決定,宣布將其核心組件3FS(Fire-Flyer 文件系統)全面開源。這一舉措被視為DeepSeek在數據訪問領域的一大推力器。
3FS,即Fire-Flyer 文件系統,是一種專為現代SSD和RDMA網絡設計的高效并行文件系統。它能夠充分利用這些先進硬件的全部帶寬,實現卓越的數據處理能力。
據DeepSeek介紹,3FS在性能表現上尤為亮眼。在180節點的集群環境中,其聚合讀取吞吐量高達6.6TiB/s;而在25節點的集群中,GraySort基準測試的吞吐量更是達到了驚人的3.66TiB/分鐘。每個客戶端節點的KVCache查找峰值吞吐量也超過了40GiB/s。更為先進的是,3FS采用了具有強一致性語義的分解架構,確保了數據的高可用性和一致性。
3FS在DeepSeek的V3/R1版本中發揮了關鍵作用。在訓練數據預處理、數據集加載、檢查點保存/重新加載、嵌入向量搜索以及KVCache查找等推理過程中,3FS都提供了強有力的支持。這使得DeepSeek在處理大規模數據集時能夠更加高效、穩定。
DeepSeek此次開源3FS,無疑將推動數據訪問技術的發展和創新。對于廣大開發者而言,這無疑是一個難得的機遇,可以深入研究和利用3FS的先進技術,進一步提升數據處理和應用性能。