DeepSeek開源周第二天開源項目:Deepep
昨天是DeepSeek ai開源周第一天,開源的項目是FlashMLA,不到半小時,Github已經(jīng)已經(jīng)300多Star了,短短1小時就超過10W閱讀,非常的火爆,今天是DeepSeek開源周的第二天,DeepSeek開源了第2個項目:Deepep。
什么是Deepep?
Deepep是一個用于MOE模型培訓(xùn)和推理的開源EP通信庫。它基于先進的混合專家架構(gòu),充分利用了大規(guī)模數(shù)據(jù)集以提高其預(yù)訓(xùn)練和微調(diào)的有效性。DeepEP的設(shè)計導(dǎo)向是減少計算負擔(dān)與內(nèi)存使用,使得用戶能夠在常規(guī)硬件上有效運行大規(guī)模模型。
Deepep的功能特點
MoE架構(gòu)優(yōu)化:
DeepEP專為Mixture-of-Experts (MoE) 和專家并行 (EP) 設(shè)計,提供高效的all-to-all GPU內(nèi)核,適用于訓(xùn)練和推理任務(wù)。
支持低精度運算,包括FP8和BF16,提升計算效率,節(jié)省顯存。
高性能通信:
提供高吞吐量和低延遲的通信內(nèi)核,支持NVLink和RDMA網(wǎng)絡(luò)。在H800 GPU上測試,最大帶寬可達153 GB/s (NVLink) 和46 GB/s (RDMA)。
針對NVLink到RDMA的非對稱帶寬轉(zhuǎn)發(fā)場景進行了優(yōu)化,確保高吞吐量表現(xiàn)。
低延遲通信:
提供純RDMA的低延遲內(nèi)核,特別適合推理解碼階段,延遲低至163微秒。
引入基于hook的通信-計算重疊方法,不占用GPU SM資源,最大化計算效率。
硬件優(yōu)化:
利用未公開的PTX指令提升Hopper架構(gòu)的性能。
支持InfiniBand網(wǎng)絡(luò),并理論上兼容RoCE,提供靈活的網(wǎng)絡(luò)配置選項。
Deepep的應(yīng)用場景
大規(guī)模模型訓(xùn)練:
適用于Mixture-of-Experts (MoE) 模型的訓(xùn)練,提供高效的并行通信支持,顯著提升訓(xùn)練效率。
推理任務(wù):
特別適合延遲敏感的推理解碼場景,顯著提升效率,降低延遲,提高推理吞吐量。
高性能計算需求:
完美適配現(xiàn)代高性能計算需求,支持多種硬件平臺,包括Hopper GPU架構(gòu),未來可能擴展更多設(shè)備。
Deepep的使用與集成
易用性:
支持Hopper GPU架構(gòu),需要Python 3.8+、CUDA 12.3+和PyTorch 2.1+環(huán)境。
安裝時需搭配團隊修改版的NVSHMEM,安裝指南詳細。
集成方式:
開源且易于集成,只需幾行命令即可構(gòu)建并運行測試。
安裝后導(dǎo)入deep_ep模塊即可直接使用,提供示例代碼和測試腳本。
DeepEP已在GitHub上開源,地址:https://github.com/deepseek-ai/DeepEP
1. DeepSeek開源周第一天開源項目:DeepSeek FlashMLA