快科技2月26日消息,DeepSeek啟動“開源周”以來,已經(jīng)陸續(xù)開源了三個代碼庫,而作為國產(chǎn)GPU的代表,摩爾線程已經(jīng)快速完成對FlashMLA、DeepGEMM的適配。
摩爾線程GPU基于全新的MUSA Compute Capability 3.1計算架構(gòu),可提供原生的FP8精度計算能力,同時升級了高性能線性代數(shù)模板庫MUTLASS,快速支持FlashMLA。
不僅如此,摩爾線程還基于MUTLASS,在全新GPU架構(gòu)上優(yōu)化實現(xiàn)了FP8矩陣乘法,支持DeepGEMM的相應功能。
FlashMLA是一款高效的MLA推理內(nèi)核開源倉庫,可以加速MLA機制的計算,特別適用于DeepSeek系列模型,包括DeepSeek-V2、V3、R1。
DeepGEMM是一個支持密集矩陣與混合專家(MoE)矩陣乘法的FP8 GEMM庫,可以為V3/R1的訓練與推理提供強大動力。
這兩個重要的開源倉庫,都基于高性能通用矩陣乘法(GEMM)的C++模板庫進行開發(fā)。
摩爾線程基于新一代計算架構(gòu)MUSA Compute Capability 3.1的全功能GPU,具備全新的Tensor計算引擎及數(shù)據(jù)搬運引擎,能夠提供原生FP8計算能力。
升級的MUTLASS高性能線性代數(shù)模板庫,支持MUSA Compute Capability 3.1的全新特性,并提供了若干算子的優(yōu)化參考實現(xiàn),包括基于FlashAttention3思想實現(xiàn)的FlashMLA以及FP8矩陣乘算子,特別支持DeepSeek訓練所需的Groupwise Scaling FP8矩陣乘法內(nèi)核函數(shù)。
得益于全新的Tensor計算引擎,F(xiàn)P8計算具有足夠高的累加精度,無需額外的二次精度修正,為前沿算法的探索打下了堅實基礎(chǔ)。
借助MUTLASS 0.2.0,摩爾線程發(fā)布了開源倉庫MT-FlashMLA,能夠快速對DeepSeek FlashMLA進行兼容部署。
同時,摩爾線程MUTLASS提供了一個全新的參考實現(xiàn),充分汲取FlashAttention3的先進算法思想,針對摩爾線程GPU設(shè)計了全新的計算流水線。
這一設(shè)計能夠有效掩藏數(shù)據(jù)搬運的延遲和Softmax計算的開銷,充分發(fā)揮摩爾線程MUSA Compute Capability 3.1全功能GPU的Tensor計算效率。
▼ MT-FlashMLA開源地址:
https://github.com/MooreThreads/MT-flashMLA
▼ MUTLASS FlashAttention3地址:
https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd
▼ MUTLASS FP8 GEMM地址:
https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder
https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm
本文鏈接:http://www.tebozhan.com/showinfo-24-133910-0.html原生FP8!摩爾線程GPU閃電適配DeepSeek開源庫FlashMLA、DeepGEMM
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com