DeepSeek在開源周的精彩收尾之際,正式推出了其創(chuàng)新的3FS(Fire-Flyer File System)。這一文件系統(tǒng)專為現(xiàn)代SSD和RDMA網(wǎng)絡設計,旨在最大化利用這些先進技術的帶寬優(yōu)勢。3FS的問世,為深度學習等數(shù)據(jù)密集型應用帶來了前所未有的數(shù)據(jù)訪問性能提升。
想要深入了解3FS的開發(fā)者們,可以訪問其開源地址:https://github.com/deepseek-ai/3FS。同時,DeepSeek還開源了基于3FS的數(shù)據(jù)處理框架Smallpond,詳情可見:https://github.com/deepseek-ai/smallpond。
3FS的性能表現(xiàn)令人矚目。在一個180節(jié)點的集群測試中,其聚合讀取吞吐量高達6.6 TiB/s,充分展現(xiàn)了其集群高吞吐的能力。而在25節(jié)點集群的GraySort基準測試中,3FS更是達到了每分鐘3.66 TiB的吞吐量,這一成績無疑證明了其基準測試的優(yōu)異表現(xiàn)。每個客戶端節(jié)點的KVCache查找峰值吞吐量也超過了40 GiB/s,進一步凸顯了3FS的單節(jié)點高性能。
在架構設計上,3FS采用了去中心化的結構,同時保證了強一致性語義,這使得它在處理分布式數(shù)據(jù)時更加高效和可靠。這種先進的架構為AI訓練和推理工作負載提供了強大的支持,簡化了分布式應用程序的開發(fā)過程。
3FS的應用場景廣泛,主要針對AI訓練和推理過程中的各種挑戰(zhàn)。它利用現(xiàn)代SSD和RDMA網(wǎng)絡構建共享存儲層,有效支持了數(shù)據(jù)準備、數(shù)據(jù)加載、檢查點設置和推理緩存等環(huán)節(jié)。無論是訓練數(shù)據(jù)預處理、數(shù)據(jù)集加載,還是檢查點保存/重新加載,甚至是嵌入向量搜索和推理過程中的KVCache查找,3FS都能提供出色的性能。
DeepSeek的V3/R1版本已經(jīng)廣泛應用了3FS。這一文件系統(tǒng)在關鍵環(huán)節(jié)中發(fā)揮了重要作用,為DeepSeek的AI工作負載提供了強有力的支持。同時,基于3FS構建的數(shù)據(jù)處理框架Smallpond也備受矚目。Smallpond是一款輕量級的數(shù)據(jù)處理框架,它結合了DuckDB和3FS的優(yōu)勢,具備高性能數(shù)據(jù)處理能力,可擴展至PB級數(shù)據(jù)集。更重要的是,Smallpond操作簡便,無需長期運行的服務,為用戶提供了極大的便利。
本文鏈接:http://www.tebozhan.com/showinfo-48-5687-0.htmlDeepSeek開源高性能文件系統(tǒng)3FS,數(shù)據(jù)訪問性能再創(chuàng)新高
聲明:本網(wǎng)頁內容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com