DeepSeek開源周第三天開源項目:DeepGemm
DeepGemm是什么?
DeepGEMM是一個專為高效FP8通用矩陣乘法(GEMM)設計的庫,具有細粒度縮放功能,支持普通和混合專家(MoE)分組GEMM。
DeepGemm的技術特點
CUDA編寫:DeepGEMM使用CUDA編寫,無需編譯,采用輕量級即時(JIT)模塊在運行時編譯所有內核。
細粒度縮放功能:支持普通和混合專家(MoE)分組GEMM,適用于不同的矩陣形狀和計算需求。
性能優化:采用CUDA核心兩級累積(提升)解決不精確的FP8張量核心累積問題,利用Hopper TMA功能加速數據移動。
DeepGemm的主要優勢
性能優異:盡管設計輕量,但其性能匹敵甚至超過了各種矩陣形狀的專家調整庫。
易于訪問:作為一個干凈且易于訪問的資源,DeepGEMM是學習Hopper FP8矩陣乘法和優化技術的理想選擇。
靈活性:支持自動選擇塊大小、warpgroups數量、最佳流水線階段和TMA集群大小,以適應不同的計算需求。
DeepGemm的應用場景
DeepGEMM適用于需要高效矩陣乘法操作的場景,特別是在深度學習ai模型訓練和推理中,能夠顯著提高計算效率和性能。
github:https://github.com/deepseek-ai/DeepGEMM
其它相關鏈接
1. DeepSeek開源周第二天開源項目:Deepep
2. DeepSeek開源周第一天開源項目:DeepSeek FlashMLA
相關文章
DeepSeek+Gamma生成PPT教程全攻略
2025-03-25