快科技5月9日消息,近日,國產(chǎn)GPU廠商摩爾線程正式發(fā)布Torch-MUSA v2.0.0版本,這是其面向PyTorch深度學習框架的MUSA擴展庫的重要升級。
在Torch-MUSA中,用戶只需指定torch.device("musa"),即可將現(xiàn)有的PyTorch模型遷移到MUSA架構的GPU上運行,無需大幅修改代碼,目前Torch-MUSA已完全開源,可通過GitHub獲取源代碼。
作為本次升級的核心亮點,Torch-MUSA v2.0.0率先在國產(chǎn)GPU上實現(xiàn)了對FP8數(shù)據(jù)類型的完整支持。
FP8是當前AI計算的一種低精度格式,在支持原生FP8的GPU上,大語言模型訓練采用FP8混合精度可大幅提高GPU算力,降低顯存占用。
摩爾線程基于新一代MUSA Compute Capability 3.1計算架構的全功能GPU原生支持FP8計算,為Torch-MUSA v2.0.0實現(xiàn)FP8矩陣乘法和分布式通信優(yōu)化提供了基礎。
依托這一底層架構優(yōu)勢,Torch-MUSA v2.0.0能夠充分發(fā)揮FP8的計算效能,顯著提升大語言模型訓練和推理的效率。
Torch-MUSA v2.0.0在MUSA計算平臺引入多項創(chuàng)新功能,進一步提升深度學習任務的執(zhí)行效率,主要包括:
1、新增虛擬內存管理支持:
MUSA虛擬內存管理技術能夠有效緩解GPU內存碎片化問題,降低模型訓練過程中的峰值內存占用,特別適用于FSDP、DeepSpeed和Megatron-LM等主流大模型訓練框架。
2、新增MUSA Graph支持:
MUSA Graph技術將多個MUSA內核整合到一個圖中,通過單次CPU調度大幅減少啟動開銷,提升計算效率,同時與CUDA Graph接口高效兼容。
3、torch.compile增加Triton后端支持:
為torch.compile提供了Triton-MUSA后端支持,開發(fā)者可以直接使用PyTorch原生接口,獲得更高效的性能表現(xiàn)。
不僅如此,Torch-MUSA v2.0.0在完整支持PyTorch 2.2.0的基礎上,還新增了對PyTorch 2.5.0的支持,使開發(fā)者能夠在基于MUSA Compute Capability 3.1計算架構的全功能GPU上,無縫運行新版本的PyTorch。
未來Torch-MUSA還將繼續(xù)跟進PyTorch的版本更新,計劃支持更高版本的PyTorch。
本文鏈接:http://www.tebozhan.com/showinfo-24-148944-0.html國產(chǎn)GPU突破!摩爾線程發(fā)布Torch-MUSA v2.0.0:FP8原生支持
聲明:本網(wǎng)頁內容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com