當前位置：首頁 > 科技 > 數(shù)碼

原生FP8！摩爾線程GPU閃電適配DeepSeek開源庫FlashMLA、DeepGEMM

來源：責編：時間：2025-02-27 08:16:17 34觀看

導讀快科技2月26日消息，DeepSeek啟動“開源周”以來，已經(jīng)陸續(xù)開源了三個代碼庫，而作為國產(chǎn)GPU的代表，摩爾線程已經(jīng)快速完成對FlashMLA、DeepGEMM的適配。摩爾線程GPU基于全新的MUSA Compute Capability 3

快科技2月26日消息，DeepSeek啟動“開源周”以來，已經(jīng)陸續(xù)開源了三個代碼庫，而作為國產(chǎn)GPU的代表，摩爾線程已經(jīng)快速完成對FlashMLA、DeepGEMM的適配。

摩爾線程GPU基于全新的MUSA Compute Capability 3.1計算架構(gòu)，可提供原生的FP8精度計算能力，同時升級了高性能線性代數(shù)模板庫MUTLASS，快速支持FlashMLA。

不僅如此，摩爾線程還基于MUTLASS，在全新GPU架構(gòu)上優(yōu)化實現(xiàn)了FP8矩陣乘法，支持DeepGEMM的相應功能。

原生FP8！摩爾線程GPU閃電適配DeepSeek開源庫FlashMLA、DeepGEMM

FlashMLA是一款高效的MLA推理內(nèi)核開源倉庫，可以加速MLA機制的計算，特別適用于DeepSeek系列模型，包括DeepSeek-V2、V3、R1。

DeepGEMM是一個支持密集矩陣與混合專家（MoE）矩陣乘法的FP8 GEMM庫，可以為V3/R1的訓練與推理提供強大動力。

這兩個重要的開源倉庫，都基于高性能通用矩陣乘法（GEMM）的C++模板庫進行開發(fā)。

摩爾線程基于新一代計算架構(gòu)MUSA Compute Capability 3.1的全功能GPU，具備全新的Tensor計算引擎及數(shù)據(jù)搬運引擎，能夠提供原生FP8計算能力。

升級的MUTLASS高性能線性代數(shù)模板庫，支持MUSA Compute Capability 3.1的全新特性，并提供了若干算子的優(yōu)化參考實現(xiàn)，包括基于FlashAttention3思想實現(xiàn)的FlashMLA以及FP8矩陣乘算子，特別支持DeepSeek訓練所需的Groupwise Scaling FP8矩陣乘法內(nèi)核函數(shù)。

得益于全新的Tensor計算引擎，F(xiàn)P8計算具有足夠高的累加精度，無需額外的二次精度修正，為前沿算法的探索打下了堅實基礎(chǔ)。

原生FP8！摩爾線程GPU閃電適配DeepSeek開源庫FlashMLA、DeepGEMM

借助MUTLASS 0.2.0，摩爾線程發(fā)布了開源倉庫MT-FlashMLA，能夠快速對DeepSeek FlashMLA進行兼容部署。

同時，摩爾線程MUTLASS提供了一個全新的參考實現(xiàn)，充分汲取FlashAttention3的先進算法思想，針對摩爾線程GPU設(shè)計了全新的計算流水線。

這一設(shè)計能夠有效掩藏數(shù)據(jù)搬運的延遲和Softmax計算的開銷，充分發(fā)揮摩爾線程MUSA Compute Capability 3.1全功能GPU的Tensor計算效率。

▼ MT-FlashMLA開源地址：

https://github.com/MooreThreads/MT-flashMLA

▼ MUTLASS FlashAttention3地址：

https://github.com/MooreThreads/mutlass/tree/main/experimental/mp31_flash_attention_fwd

▼ MUTLASS FP8 GEMM地址：

https://github.com/MooreThreads/mutlass/tree/main/examples/02_mp31_fp8_gemm_with_collective_builder

https://github.com/MooreThreads/mutlass/tree/main/examples/03_mp31_fp8_scaling_gemm

本文鏈接：http://www.tebozhan.com/showinfo-24-133910-0.html原生FP8！摩爾線程GPU閃電適配DeepSeek開源庫FlashMLA、DeepGEMM

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： EK 推出 RTX 5090 FE 專屬水冷頭，329.90 歐元，支持三區(qū) PCB 設(shè)計

下一篇： RTX 5060 Ti功耗小幅增至180W：還是8/16GB兩種顯存

標簽：

熱門焦點

Mate60手機殼曝光致敬自己的經(jīng)典設(shè)計

8月3日消息，今天下午博主數(shù)碼閑聊站帶來了華為Mate60的第三方手機殼圖，可以讓我們在真機發(fā)布之前看看這款華為全新旗艦的大致輪廓。從曝光的圖片看，Mate 60背后攝像頭面積依然
6月iOS設(shè)備性能榜：M2穩(wěn)居榜首 A系列只能等一手3nm來救

沒有新品發(fā)布，自然iOS設(shè)備性能榜的上榜設(shè)備就沒有什么更替，僅僅只有跑分變化而產(chǎn)生的排名變動，畢竟蘋果新品的發(fā)布節(jié)奏就是這樣的，一年下來也就幾個移動端新品，不會像安卓廠商，一
Rust中的高吞吐量流處理

作者 | Noz編譯 | 王瑞平本篇文章主要介紹了Rust中流處理的概念、方法和優(yōu)化。作者不僅介紹了流處理的基本概念以及Rust中常用的流處理庫，還使用這些庫實現(xiàn)了一個流處理程序
三言兩語說透設(shè)計模式的藝術(shù)-單例模式

寫在前面單例模式是一種常用的軟件設(shè)計模式，它所創(chuàng)建的對象只有一個實例，且該實例易于被外界訪問。單例對象由于只有一個實例，所以它可以方便地被系統(tǒng)中的其他對象共享，從而減少
認真聊聊東方甄選：如何告別低垂的果實

來源：山核桃作者：財經(jīng)無忌爆火一年后，俞敏洪和他的東方甄選依舊是頗受外界關(guān)心的“網(wǎng)紅”。7月5日至9日，為期5天的東方甄選“甘肅行”首次在自有App內(nèi)直播，
造車兩年股價跌六成，小米的估值邏輯變了嗎？

如果從小米官宣造車后的首個交易日起持有小米集團的股票，那么截至2023年上半年最后一個交易日，投資者將浮虧59.16%，同區(qū)間的恒生科技指數(shù)跌幅為52.78%
首發(fā)天璣9200+ iQOO Neo8系列發(fā)布首銷售價2299元起

2023年5月23日晚，iQOO Neo8系列正式發(fā)布。其中，Neo系列首款Pro之作——iQOO Neo8 Pro強悍登場，限時售價3099元起；價位段最強性能手機iQOO Neo8同期上市
最薄的14英寸游戲筆記本電腦 Alienware X14已可以購買

2022年1月份在國際消費電子展(CES2022)上首次亮相的Alienware新品——Alienware X14現(xiàn)在已經(jīng)可以購買了，這款筆記本電腦被譽為世界上最薄的 14 英寸游戲筆
中關(guān)村論壇11月25日開幕，15位諾獎級大咖將發(fā)表演講

11月18日，記者從2022中關(guān)村論壇新聞發(fā)布會上獲悉，中關(guān)村論壇將于11月25至30日在京舉行。本屆中關(guān)村論壇由科學技術(shù)部、國家發(fā)展改革委、工業(yè)和信息化部、國務

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

原生FP8！摩爾線程GPU閃電適配DeepSeek開源庫FlashMLA、DeepGEMM

Mate60手機殼曝光致敬自己的經(jīng)典設(shè)計

6月iOS設(shè)備性能榜：M2穩(wěn)居榜首 A系列只能等一手3nm來救

Rust中的高吞吐量流處理

三言兩語說透設(shè)計模式的藝術(shù)-單例模式

認真聊聊東方甄選：如何告別低垂的果實

造車兩年股價跌六成，小米的估值邏輯變了嗎？

首發(fā)天璣9200+ iQOO Neo8系列發(fā)布首銷售價2299元起

最薄的14英寸游戲筆記本電腦 Alienware X14已可以購買

中關(guān)村論壇11月25日開幕，15位諾獎級大咖將發(fā)表演講

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊