2 月 26 日消息,DeepSeek“開源周”的進度今日來到 3/5:支持稠密和混合專家模型 (MoE) 的 FP8 矩陣乘法 (GEMM) 庫,用以驅(qū)動 V3 / R1 模型的訓(xùn)練和推理。
在 Hopper GPU 上可實現(xiàn)高達 1350+ FP8 TFLOPS 性能
無復(fù)雜依賴,代碼簡潔如教程
完全采用即時編譯技術(shù)(Just-In-Time)
核心代碼僅約 300 行 —— 在大多數(shù)矩陣尺寸下超越了專家優(yōu)化的內(nèi)核
支持稠密布局和兩種 MoE 布局
附開源鏈接:https://github.com/deepseek-ai/DeepGEMM
官方介紹大意如下:
DeepGEMM 是一個專為高效且清晰的 FP8 通用矩陣乘法(GEMM)設(shè)計的庫,具備 DeepSeek-V3 所提出的精細化縮放能力。它支持普通的 GEMM 以及 Mix-of-Experts (MoE) 分組 GEMM。
該庫基于 CUDA 編寫,在安裝時無需預(yù)編譯,而是通過輕量級的即時編譯(JIT)模塊,在運行時動態(tài)編譯所有內(nèi)核。
目前,DeepGEMM 僅支持 NVIDIA Hopper 張量核心。為了應(yīng)對 FP8 張量核心累加不精確的問題,它使用了 CUDA 核心的兩級累加(提升)方法。雖然它借鑒了部分 CUTLASS 和 CuTe 的理念,但并未過度依賴它們的模板或代數(shù)結(jié)構(gòu)。
DeepGEMM 的設(shè)計簡潔,核心內(nèi)核函數(shù)只有大約 300 行代碼,方便學(xué)習(xí) Hopper FP8 矩陣乘法和優(yōu)化技術(shù)。
盡管采用輕量設(shè)計,DeepGEMM 在多種矩陣形狀下的性能表現(xiàn)與專家優(yōu)化的庫相當,甚至更好。
我們在 H800 上,使用 NVCC 12.8 測試了 DeepSeek-V3 / R1 推理中可能用到的各種矩陣形狀(包括預(yù)填充和解碼,但不涉及張量并行)。所有加速指標都是相對于我們內(nèi)部精心優(yōu)化的 CUTLASS 3.6 實現(xiàn)計算的。
DeepGEMM 在某些矩陣形狀下的表現(xiàn)不盡如人意,歡迎有興趣的朋友提交優(yōu)化 PR。
本文鏈接:http://www.tebozhan.com/showinfo-45-11196-0.htmlDeepSeek 開源進度 3 5:深度學(xué)習(xí)利器 DeepGEMM
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com