首頁(yè) > Ai資訊 > Ai產(chǎn)品

DeepSeek開(kāi)源周第五天開(kāi)源項(xiàng)目：3FS，高性能分布式文件系統(tǒng)。

映技派于2025-02-28發(fā)布在Ai產(chǎn)品

這邊GPT4.5剛發(fā)布，這邊 DeepSeek開(kāi)源周進(jìn)入到第五天開(kāi)源的項(xiàng)目，最后一天的開(kāi)源項(xiàng)目是：3FS（Fire-Flyer File System）。

3FS（Fire-Flyer File System）是什么？

3FS（Fire-Flyer File System）是DeepSeek自研的高性能分布式文件系統(tǒng)，專為解決ai訓(xùn)練和推理工作負(fù)載的挑戰(zhàn)而設(shè)計(jì)。

DeepSeek開(kāi)源周第五天開(kāi)源項(xiàng)目：3FS，高性能分布式文件系統(tǒng)。.webp

3FS的特征

高性能：

利用現(xiàn)代SSD和RDMA網(wǎng)絡(luò)，提供高吞吐量和低延遲的數(shù)據(jù)訪問(wèn)。
結(jié)合數(shù)千個(gè)SSD的吞吐量和數(shù)百個(gè)存儲(chǔ)節(jié)點(diǎn)的網(wǎng)絡(luò)帶寬，使應(yīng)用能夠以無(wú)關(guān)地域的方式訪問(wèn)存儲(chǔ)資源。

強(qiáng)一致性：

通過(guò)實(shí)現(xiàn)鏈?zhǔn)綇?fù)制與分配查詢（CRAQ），確保強(qiáng)一致性，使得應(yīng)用代碼更簡(jiǎn)潔且易于推理。

文件接口：

采用無(wú)狀態(tài)元數(shù)據(jù)服務(wù)，背后支持事務(wù)型鍵值存儲(chǔ)（如FoundationDB）。
熟悉的文件接口，無(wú)需學(xué)習(xí)新的存儲(chǔ)API。

多樣化工作負(fù)載支持：

數(shù)據(jù)準(zhǔn)備：將數(shù)據(jù)分析管道的輸出組織成層次化目錄結(jié)構(gòu)，有效管理大量中間輸出。
數(shù)據(jù)加載器：通過(guò)支持跨計(jì)算節(jié)點(diǎn)隨機(jī)訪問(wèn)訓(xùn)練樣本，消除預(yù)讀取或數(shù)據(jù)洗牌的需求。

檢查點(diǎn)：支持大規(guī)模訓(xùn)練的高吞吐量并行檢查點(diǎn)。

推理KV緩存：提供一種基于成本效益的替代方案，替代DRAM緩存，提供更高吞吐量并大大提高容量。

存算分離：

數(shù)據(jù)存儲(chǔ)服務(wù)與計(jì)算節(jié)點(diǎn)分離，專門(mén)用于存儲(chǔ)模型訓(xùn)練需要用到的樣本數(shù)據(jù)。
每個(gè)存儲(chǔ)服務(wù)節(jié)點(diǎn)有16張各15TB的SSD硬盤(pán)和2張高速網(wǎng)卡，讀取性能強(qiáng)勁，網(wǎng)絡(luò)帶寬強(qiáng)大，讀寫(xiě)帶寬：7.0TB/秒。

自研通信工具：

如hfreduce，優(yōu)化多卡并行通信，替代英偉達(dá)的NCCL，減少PCIe流量和計(jì)算開(kāi)銷(xiāo)。

專用數(shù)據(jù)格式FFRecord：

通過(guò)合并多個(gè)小文件，減少了訓(xùn)練時(shí)打開(kāi)大量小文件的開(kāi)銷(xiāo)。
通過(guò)樣本文件的偏移量提升隨機(jī)批量讀取性能。

3FS的應(yīng)用

AI訓(xùn)練和推理：

3FS專為AI訓(xùn)練和推理工作負(fù)載設(shè)計(jì)，能夠顯著提升這些任務(wù)的效率。
通過(guò)高性能和強(qiáng)一致性，3FS支持大規(guī)模模型訓(xùn)練和高吞吐量推理。

數(shù)據(jù)準(zhǔn)備和加載：

3FS的數(shù)據(jù)準(zhǔn)備和加載器功能使得處理大量數(shù)據(jù)變得更加高效，減少了預(yù)讀取和數(shù)據(jù)洗牌的需求。

檢查點(diǎn)和推理緩存：

3FS支持高吞吐量的并行檢查點(diǎn)，確保訓(xùn)練過(guò)程的穩(wěn)定性和容錯(cuò)性。
推理KV緩存提供了基于成本效益的替代方案，提高了推理吞吐量和容量。

3FS的使用

安裝和配置：

3FS可以通過(guò)GitHub上的開(kāi)源項(xiàng)目進(jìn)行安裝和配置。

數(shù)據(jù)格式轉(zhuǎn)換：

使用FFRecord格式進(jìn)行數(shù)據(jù)存儲(chǔ)和加載，需要將樣本數(shù)據(jù)轉(zhuǎn)換成FFRecord格式。
提供了FFRecord轉(zhuǎn)換工具，方便用戶進(jìn)行數(shù)據(jù)格式轉(zhuǎn)換。

與PyTorch集成：

3FS適配了PyTorch的Dataset和Dataloader接口，可以非常方便地加載數(shù)據(jù)并發(fā)起訓(xùn)練。

GitHub項(xiàng)目地址：https://github.com/deepseek-ai/3FS

前四天開(kāi)源項(xiàng)目回顧

第一天：FlashMLA，針對(duì)NVIDIA Hopper GPU的高效解碼內(nèi)核，優(yōu)化了多頭潛在注意力（MLA）的性能，顯著提升了AI工具在內(nèi)容創(chuàng)作中的響應(yīng)速度。

第二天：DeepeEP，首個(gè)用于混合專家模型（MoE）訓(xùn)練和推理的開(kāi)源通信庫(kù)，優(yōu)化了大規(guī)模分布式訓(xùn)練的通信效率，降低了延遲。

第三天：DeepGEMM，支持稠密和MoE模型的FP8計(jì)算庫(kù)，專為NVIDIA Hopper架構(gòu)GPU設(shè)計(jì)，顯著提高了計(jì)算效率和硬件利用率。

第四天：DualPipe，一種雙向流水線并行算法，旨在優(yōu)化V3/R1模型訓(xùn)練中的計(jì)算和通信重疊。EPLB，一個(gè)專家并行負(fù)載均衡器，專門(mén)用于解決大規(guī)模AI模型中專家并行任務(wù)的負(fù)載不均衡問(wèn)題。

文生圖模型Ideogram 2A：更快的生成速度和更低的成本

GPT-4.5與GPT-4o相比，有哪些特點(diǎn)變化或提升？

相關(guān)文章

DeepSeek V3.1上線，更新了哪些功能？

DeepSeek V3.1上線，更新了哪些功能？

2025-08-19

DeepSeek R1-0528有哪些功能更新？

DeepSeek R1-0528有哪些功能更新？

2025-05-29

DeepSeek發(fā)布DeepSeek-Prover-

DeepSeek發(fā)布DeepSeek-Prover-

2025-04-30

馬蜂窩正式推出AI旅行助手“AI小螞”：全量接入De

馬蜂窩正式推出AI旅行助手“AI小螞”：全量接入De

2025-04-29

Awesome-Deepseek-Integrati

Awesome-Deepseek-Integrati

2025-04-22

DeepSite：基于DeepSeek-V3-032

DeepSite：基于DeepSeek-V3-032

2025-04-14

我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

DeepSeek開(kāi)源周第五天開(kāi)源項(xiàng)目：3FS，高性能分布式文件系統(tǒng)。

3FS（Fire-Flyer File System）是什么？

3FS的特征

3FS的應(yīng)用

3FS的使用

前四天開(kāi)源項(xiàng)目回顧

相關(guān)文章

最新文章

最新工具

我爱我色成人网,欧美日韩国产色,欧美亚视频在线中文字幕免费,亚洲国产影院

DeepSeek開(kāi)源周第五天開(kāi)源項(xiàng)目：3FS，高性能分布式文件系統(tǒng)。

3FS（Fire-Flyer File System）是什么？

3FS的特征

3FS的應(yīng)用

3FS的使用

前四天開(kāi)源項(xiàng)目回顧

相關(guān)文章

最新文章

最新工具

DeepSeek開(kāi)源周第五天開(kāi)源項(xiàng)目：3FS，高性能分布式文件系統(tǒng)。