今天上午9點(diǎn),DeepSeek繼續(xù)履行開(kāi)源周承諾,發(fā)布了開(kāi)源DeepGEMM。該帖子一經(jīng)轉(zhuǎn)發(fā),立即引來(lái)了2.1萬(wàn)閱讀量,足以見(jiàn)其在國(guó)內(nèi)外受到追捧的熱度。
據(jù)了解,DeepGEMM是一個(gè)專注于為FP8高效通用矩陣乘法(GEMM)庫(kù),支持普通及混合專家(MoE)分組的矩陣計(jì)算需求,可動(dòng)態(tài)優(yōu)化資源分配以提升算力效率。
該庫(kù)基于CUDA開(kāi)發(fā),采用輕量級(jí)即時(shí)編譯(JIT)模塊,在運(yùn)行時(shí)動(dòng)態(tài)編譯內(nèi)核,無(wú)需預(yù)先編譯安裝。
值得一提的是,DeepGEMM設(shè)計(jì)目標(biāo)是為DeepSeek-V3/R1模型的訓(xùn)練與推理提供簡(jiǎn)潔高效的底層支持,尤其針對(duì)Hopper架構(gòu)GPU(如H800)優(yōu)化,兼顧高性能與低成本。
作為開(kāi)源周的第三項(xiàng)成果,DeepGEMM的發(fā)布延續(xù)了DeepSeek此前開(kāi)源模型與工具(如FlashMLA)的策略,進(jìn)一步降低高性能計(jì)算技術(shù)的應(yīng)用門(mén)檻。
另外,本次開(kāi)源屬于DeepSeek“開(kāi)源周”(2月24日-28日)的第三項(xiàng)項(xiàng)目,此前已發(fā)布FlashMLA(高效解碼內(nèi)核)和DeepEP(專家并行通信庫(kù))。