DeepSeek開源周第六天開源項(xiàng)目:DeepSeek-V3/R1推理系統(tǒng),成本利潤(rùn)率高達(dá)545%
說好的開源周5天,想不到周六還來一個(gè)彩蛋,推出了DeepSeek-V3/R1推理系統(tǒng)。
DeepSeek-V3/R1推理系統(tǒng)是什么?
DeepSeek-V3/R1推理系統(tǒng)是DeepSeek最新推出的高性能推理系統(tǒng),旨在通過優(yōu)化吞吐量和延遲來提升推理效率。該系統(tǒng)采用了大規(guī)模跨節(jié)點(diǎn)專家并行(Expert Parallelism, EP)技術(shù),顯著提高了GPU矩陣計(jì)算的效率,并通過將專家模塊分布在不同GPU上來降低延遲。
主要特點(diǎn)
高吞吐量和低延遲優(yōu)化:
采用跨節(jié)點(diǎn)專家并行(Expert Parallelism, EP)技術(shù),顯著擴(kuò)大批處理規(guī)模,提高GPU矩陣計(jì)算效率。
通過預(yù)填充-解碼解耦架構(gòu),在預(yù)填充和解碼階段分別采用不同程度的并行策略。
智能負(fù)載均衡:
在預(yù)填充和解碼階段分別實(shí)現(xiàn)核心注意力計(jì)算和分發(fā)發(fā)送負(fù)載的均衡。
在混合專家模型(MoE)中,平衡每個(gè)GPU上的專家計(jì)算工作量。
計(jì)算-通信重疊處理:
采用dual-batch重疊策略,將同一批請(qǐng)求分割為兩個(gè)microbatch,以隱藏通信成本并提高整體吞吐量。
在解碼階段,采用五階段流水線技術(shù),實(shí)現(xiàn)計(jì)算與通信的無縫重疊。
大規(guī)模跨節(jié)點(diǎn)專家并行(EP):
每層256個(gè)專家中僅激活8個(gè),模型的高稀疏性特點(diǎn)要求采用極大的整體批處理規(guī)模。
預(yù)填充階段采用路由專家EP32和MLA/共享專家DP32,解碼階段采用路由專家EP144和MLA/共享專家DP144。
高效資源利用:
在白天高峰時(shí)段,所有節(jié)點(diǎn)都部署推理服務(wù);在夜間低負(fù)載時(shí)段,減少推理節(jié)點(diǎn)并將資源分配給研究和訓(xùn)練。
關(guān)鍵技術(shù)
跨節(jié)點(diǎn)專家并行(EP):DeepSeek-V3/R1模型能夠激活大量的專家網(wǎng)絡(luò),但每層僅激活256個(gè)專家中的8個(gè),生成高度稀疏的計(jì)算結(jié)構(gòu)。
負(fù)載平衡:系統(tǒng)設(shè)計(jì)確保各個(gè)節(jié)點(diǎn)間的計(jì)算負(fù)載均勻,從而能夠有效利用全部資源。
成本和利潤(rùn)率:根據(jù)模型的最新評(píng)估,假設(shè)GPU租賃成本為每小時(shí)2美元,總成本為每天87072美元,而理論上的一天總收入可達(dá)562027美元,成本利潤(rùn)率高達(dá)545%
應(yīng)用
在線推理服務(wù):
所有DeepSeek-V3/R1推理服務(wù)均在H800 GPU上運(yùn)行,精度與訓(xùn)練保持一致。
提供高吞吐量和低延遲的在線推理服務(wù),適用于網(wǎng)頁、APP和API的所有用戶請(qǐng)求。
商業(yè)化和非商業(yè)化服務(wù):
部分服務(wù)實(shí)現(xiàn)了商業(yè)化,網(wǎng)頁和APP訪問仍然免費(fèi)。
在非高峰時(shí)段自動(dòng)應(yīng)用夜間折扣,優(yōu)化資源利用和成本效益。
統(tǒng)計(jì)數(shù)據(jù)
在過去24小時(shí)內(nèi),V3和R1推理服務(wù)的合計(jì)峰值節(jié)點(diǎn)占用達(dá)到278個(gè),平均占用226.75個(gè)節(jié)點(diǎn)(每個(gè)節(jié)點(diǎn)包含8個(gè)H800 GPU)。
每個(gè)H800節(jié)點(diǎn)在預(yù)填充階段提供平均約7.37萬token/秒的輸入吞吐量,或在解碼階段提供約1.48萬token/秒的輸出吞吐量。
如果所有token都按照DeepSeek-R1的定價(jià)計(jì)費(fèi),每日總收入將達(dá)到562,027美元,利潤(rùn)率為545%。
前五天開源項(xiàng)目回顧
第一天:FlashMLA,針對(duì)NVIDIA Hopper GPU的高效解碼內(nèi)核,優(yōu)化了多頭潛在注意力(MLA)的性能,顯著提升了ai工具在內(nèi)容創(chuàng)作中的響應(yīng)速度。
第二天:DeepeEP,首個(gè)用于混合專家模型(MoE)訓(xùn)練和推理的開源通信庫(kù),優(yōu)化了大規(guī)模分布式訓(xùn)練的通信效率,降低了延遲。
第三天:DeepGEMM,支持稠密和MoE模型的FP8計(jì)算庫(kù),專為NVIDIA Hopper架構(gòu)GPU設(shè)計(jì),顯著提高了計(jì)算效率和硬件利用率。
第四天:DualPipe,一種雙向流水線并行算法,旨在優(yōu)化V3/R1模型訓(xùn)練中的計(jì)算和通信重疊。EPLB,一個(gè)專家并行負(fù)載均衡器,專門用于解決大規(guī)模AI模型中專家并行任務(wù)的負(fù)載不均衡問題。
第五天:3FS,高性能分布式文件系統(tǒng)。