2 月 28 日消息,DeepSeek 在開源周第五天發布了 3FS(Fire-Flyer File System),這是一個專為充分利用現代 SSD 和 RDMA 網絡帶寬而設計的并行文件系統,具備驚人的數據訪問性能,為深度學習等數據密集型應用提供了強大的支持。
附上開源地址:https://github.com/deepseek-ai/3FS。
基于 3FS 的數據處理框架 Smallpond:https://github.com/deepseek-ai/smallpond。
集群高吞吐: 在 180 節點集群中,3FS 實現了高達 6.6 TiB/s 的聚合讀取吞吐量。
基準測試優異: 在 25 節點集群的 GraySort 基準測試中,3FS 達到了 3.66 TiB / min 的吞吐量。
單節點高性能: 每個客戶端節點的 KVCache 查找峰值吞吐量超過 40 GiB/s。
架構先進: 3FS 采用去中心化架構,并具備強一致性語義。
3FS 應用場景3FS (Fire-Flyer File System) 是一款高性能的分布式文件系統,旨在解決 AI 訓練和推理工作負載帶來的挑戰,利用現代 SSD 和 RDMA 網絡提供共享存儲層,簡化分布式應用程序的開發。
其核心優勢在于高性能、強一致性和易用性,能夠有效支持各種 AI 工作負載,包括數據準備、數據加載、檢查點設置和推理緩存。
3FS 在 DeepSeek 的 V3 / R1 版本中得到廣泛應用,涵蓋了訓練數據預處理、數據集加載、檢查點保存 / 重新加載、嵌入向量搜索以及推理過程中的 KVCache 查找等關鍵環節。
Smallpond此外,DeepSeek 還開源了基于 3FS 的數據處理框架 Smallpond,是一款構建于 DuckDB 和 3FS 之上的輕量級數據處理框架。它擁有高性能數據處理能力,可擴展至 PB 級數據集,并且操作簡便,無需長期運行的服務。
相關閱讀:
《DeepSeek 開源進度 4/5:DualPipe、EPLB 優化并行策略》
《DeepSeek 開源進度 3/5:深度學習利器 DeepGEMM》
《DeepSeek 開源進度 2/5:首個用于 MoE 模型訓練和推理的 EP 通信庫 DeepEP》
《DeepSeek 代碼庫開源進度 1/5:為 Hopper GPU 優化的高效 MLA 解碼內核 FlashMLA》
本文鏈接:http://www.tebozhan.com/showinfo-45-11301-0.htmlDeepSeek 開源進度 5 5:高性能并行文件系統 3FS 實現聚合吞吐 6.6 TiB s
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com