近日,DeepSeek開源周活動如火如荼地進行中,繼MLA解碼核FlashMLA以及DeepEP兩款代碼庫開源后,DeepSeek再次拋出重磅炸彈——宣布開放DeepGEMM代碼庫。
DeepGEMM,這款專為簡潔高效的FP8通用矩陣乘法(GEMMs)而設計的代碼庫,無疑是此次開源周的又一大亮點。它不僅支持普通的GEMM運算,還兼顧了專家混合(MoE)分組的運算需求,展現了其強大的通用性和靈活性。
值得一提的是,該代碼庫使用CUDA編寫,安裝過程無需繁瑣的編譯步驟,只需在運行時通過輕量級即時編譯模塊即可完成所有內核的編譯,極大地提升了開發效率。
DeepGEMM的代碼量僅約為300行,卻巧妙地解決了FP8張量核心累加不精確的問題。它采用了CUDA核心的兩級累加(提升)方法,確保了運算的準確性和穩定性。目前,該代碼庫僅支持英偉達Hopper架構運算,但這一限制并未影響其成為FP8通用矩陣乘法領域的佼佼者。
本文鏈接:http://www.tebozhan.com/showinfo-27-134139-0.htmlDeepSeek開源周再放大招
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com