當前位置：首頁 > 元宇宙 > AI

DeepSeek 開源進度 3 5：深度學(xué)習(xí)利器 DeepGEMM

來源：責(zé)編：時間：2025-02-28 12:38:35 56觀看

導(dǎo)讀 2 月 26 日消息，DeepSeek“開源周”的進度今日來到 3/5：支持稠密和混合專家模型 (MoE) 的 FP8 矩陣乘法 (GEMM) 庫，用以驅(qū)動 V3 / R1 模型的訓(xùn)練和推理。在 Hopper GPU 上可實現(xiàn)高達 1350+ FP8 TFLOPS 性能無復(fù)

2 月 26 日消息，DeepSeek“開源周”的進度今日來到 3/5：支持稠密和混合專家模型 (MoE) 的 FP8 矩陣乘法 (GEMM) 庫，用以驅(qū)動 V3 / R1 模型的訓(xùn)練和推理。

在 Hopper GPU 上可實現(xiàn)高達 1350+ FP8 TFLOPS 性能

無復(fù)雜依賴，代碼簡潔如教程

完全采用即時編譯技術(shù)（Just-In-Time）

核心代碼僅約 300 行 —— 在大多數(shù)矩陣尺寸下超越了專家優(yōu)化的內(nèi)核

支持稠密布局和兩種 MoE 布局

附開源鏈接：https://github.com/deepseek-ai/DeepGEMM

官方介紹大意如下：

DeepGEMM 是一個專為高效且清晰的 FP8 通用矩陣乘法（GEMM）設(shè)計的庫，具備 DeepSeek-V3 所提出的精細化縮放能力。它支持普通的 GEMM 以及 Mix-of-Experts (MoE) 分組 GEMM。

該庫基于 CUDA 編寫，在安裝時無需預(yù)編譯，而是通過輕量級的即時編譯（JIT）模塊，在運行時動態(tài)編譯所有內(nèi)核。

目前，DeepGEMM 僅支持 NVIDIA Hopper 張量核心。為了應(yīng)對 FP8 張量核心累加不精確的問題，它使用了 CUDA 核心的兩級累加（提升）方法。雖然它借鑒了部分 CUTLASS 和 CuTe 的理念，但并未過度依賴它們的模板或代數(shù)結(jié)構(gòu)。

DeepGEMM 的設(shè)計簡潔，核心內(nèi)核函數(shù)只有大約 300 行代碼，方便學(xué)習(xí) Hopper FP8 矩陣乘法和優(yōu)化技術(shù)。

盡管采用輕量設(shè)計，DeepGEMM 在多種矩陣形狀下的性能表現(xiàn)與專家優(yōu)化的庫相當，甚至更好。

我們在 H800 上，使用 NVCC 12.8 測試了 DeepSeek-V3 / R1 推理中可能用到的各種矩陣形狀（包括預(yù)填充和解碼，但不涉及張量并行）。所有加速指標都是相對于我們內(nèi)部精心優(yōu)化的 CUTLASS 3.6 實現(xiàn)計算的。

DeepGEMM 在某些矩陣形狀下的表現(xiàn)不盡如人意，歡迎有興趣的朋友提交優(yōu)化 PR。

本文鏈接：http://www.tebozhan.com/showinfo-45-11196-0.htmlDeepSeek 開源進度 3 5：深度學(xué)習(xí)利器 DeepGEMM

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：香港：預(yù)留 10 億港元成立人工智能研發(fā)院

下一篇：豪擲 2000 億美元，消息稱 Meta 正洽談 AI 數(shù)據(jù)中心園區(qū)新項目

標簽：

熱門焦點

“啫喱”超越微信登頂：首款“元宇宙社交App”會曇花一現(xiàn)嗎？

作者| 赤木瓶子如何終結(jié)“曇花一現(xiàn)”的命運，是潮流社交產(chǎn)品的長期命題，如今，在元宇宙浪潮的洗禮下，這一命題正在迎來新的可能性。近段時間，一款名為“啫喱”的社交A
城市數(shù)字孿生標準化白皮書（2022版）

當前，城市數(shù)字孿生已經(jīng)發(fā)展成為支撐智慧城市的重要技術(shù)手段。城市數(shù)字孿生通過在數(shù)字空間對城市物理空間和社會空間進行全要素表達、全過程呈現(xiàn)、全周期可溯，實
冰墩墩的NFT暴漲千倍？真相則是價格暴跌、成交遇冷

《區(qū)塊鏈日報》記者查證，近日來冰墩墩數(shù)字藏品交易數(shù)量出現(xiàn)大幅下滑，而所謂的暴漲千倍更是有價無市的自嗨。昨日，北京冬奧會正式閉幕。在這屆冬奧會上，吉祥物“冰
好萊塢：一股新的電影制作加密浪潮將顛覆這個行業(yè)

在Moviecoin.com平臺上，有一部電影設(shè)定了一個前所未有的目標，即通過預(yù)售NFT獲得100%的全額融資，這部電影就是馬克·奧康納(Mark O’connor)執(zhí)導(dǎo)的《Oui Cannes》，
NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

Block-806NFT的增長值得關(guān)注。許多人愿意為數(shù)字藝術(shù)支付數(shù)百萬美元，世界正在走向數(shù)字化。報告顯示，NFT市場和NFT收藏從2020年的1.06億美元增加到了2021年的442億
數(shù)字經(jīng)濟、數(shù)據(jù)要素與數(shù)字治理

深入理解數(shù)字經(jīng)濟與數(shù)據(jù)要素，有利于更準確理解和把握數(shù)字治理的基本規(guī)律，構(gòu)建面向未來的健康的數(shù)字治理體系，也才能更好地理解元宇宙的治理框架。一、數(shù)字經(jīng)濟
如何在元宇宙中建立品牌忠誠度

Snoop Dogg、耐克、蘇富比和普華永道都有什么共同點？他們都投資于元宇宙的房地產(chǎn)。除了我們在屏幕上看到的二維世界--手機、筆記本電腦、臺式機或iPad--他們決
花旗集團前高管加入Provenance區(qū)塊鏈，擔任CEO

No.1 花旗集團前高管加入Provenance區(qū)塊鏈，擔任CEO3月1日消息，Provenance區(qū)塊鏈基金會已任命花旗集團前高管摩根·麥肯尼（Morgan McKenney）為新任首席執(zhí)行官。麥肯
76億美金估值、2022年最具創(chuàng)新力公司，Dapper Labs如何做到？

“元宇宙的開拓者”是我們針對元宇宙的發(fā)展而設(shè)立的專欄，主要面向那些深挖元宇宙產(chǎn)業(yè)或者在元宇宙進行“淘金”的從業(yè)者，分享這些企業(yè)或者創(chuàng)業(yè)者們的故事，以獨特

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

DeepSeek 開源進度 3 5：深度學(xué)習(xí)利器 DeepGEMM

“啫喱”超越微信登頂：首款“元宇宙社交App”會曇花一現(xiàn)嗎？

城市數(shù)字孿生標準化白皮書（2022版）

冰墩墩的NFT暴漲千倍？真相則是價格暴跌、成交遇冷

好萊塢：一股新的電影制作加密浪潮將顛覆這個行業(yè)

NFT盜竊案：為什么NFT市場被盜竊和黑客所困擾？

數(shù)字經(jīng)濟、數(shù)據(jù)要素與數(shù)字治理

如何在元宇宙中建立品牌忠誠度

花旗集團前高管加入Provenance區(qū)塊鏈，擔任CEO

76億美金估值、2022年最具創(chuàng)新力公司，Dapper Labs如何做到？

最新推薦

文心一言排名墊底，卻成為百度業(yè)績增長杠桿

一個視頻漲粉百萬，柳夜熙們能成為元宇宙的“船票”嗎？

時尚領(lǐng)域進軍元宇宙，2022年會帶來哪些顛覆性的全新體驗？

2030年的元宇宙產(chǎn)業(yè)將會如何發(fā)展？

趙長鵬預(yù)測SoicalFi為今年主要驅(qū)動力，新的機會在哪里？

MR——元宇宙平臺的下一代入口

猜你喜歡

熱門推薦

相關(guān)資訊