當前位置：首頁 > 科技 > 數(shù)碼

國產(chǎn)GPU突破！摩爾線程發(fā)布Torch-MUSA v2.0.0：FP8原生支持

來源：責編：時間：2025-05-11 10:23:32 62觀看

導讀快科技5月9日消息，近日，國產(chǎn)GPU廠商摩爾線程正式發(fā)布Torch-MUSA v2.0.0版本，這是其面向PyTorch深度學習框架的MUSA擴展庫的重要升級。在Torch-MUSA中，用戶只需指定torch.device("musa")，即可將現(xiàn)有的PyTorch模型

快科技5月9日消息，近日，國產(chǎn)GPU廠商摩爾線程正式發(fā)布Torch-MUSA v2.0.0版本，這是其面向PyTorch深度學習框架的MUSA擴展庫的重要升級。

在Torch-MUSA中，用戶只需指定torch.device("musa")，即可將現(xiàn)有的PyTorch模型遷移到MUSA架構的GPU上運行，無需大幅修改代碼，目前Torch-MUSA已完全開源，可通過GitHub獲取源代碼。

作為本次升級的核心亮點，Torch-MUSA v2.0.0率先在國產(chǎn)GPU上實現(xiàn)了對FP8數(shù)據(jù)類型的完整支持。

FP8是當前AI計算的一種低精度格式，在支持原生FP8的GPU上，大語言模型訓練采用FP8混合精度可大幅提高GPU算力，降低顯存占用。

摩爾線程基于新一代MUSA Compute Capability 3.1計算架構的全功能GPU原生支持FP8計算，為Torch-MUSA v2.0.0實現(xiàn)FP8矩陣乘法和分布式通信優(yōu)化提供了基礎。

依托這一底層架構優(yōu)勢，Torch-MUSA v2.0.0能夠充分發(fā)揮FP8的計算效能，顯著提升大語言模型訓練和推理的效率。

Torch-MUSA v2.0.0在MUSA計算平臺引入多項創(chuàng)新功能，進一步提升深度學習任務的執(zhí)行效率，主要包括：

1、新增虛擬內存管理支持：

MUSA虛擬內存管理技術能夠有效緩解GPU內存碎片化問題，降低模型訓練過程中的峰值內存占用，特別適用于FSDP、DeepSpeed和Megatron-LM等主流大模型訓練框架。

2、新增MUSA Graph支持：

MUSA Graph技術將多個MUSA內核整合到一個圖中，通過單次CPU調度大幅減少啟動開銷，提升計算效率，同時與CUDA Graph接口高效兼容。

3、torch.compile增加Triton后端支持：

為torch.compile提供了Triton-MUSA后端支持，開發(fā)者可以直接使用PyTorch原生接口，獲得更高效的性能表現(xiàn)。

不僅如此，Torch-MUSA v2.0.0在完整支持PyTorch 2.2.0的基礎上，還新增了對PyTorch 2.5.0的支持，使開發(fā)者能夠在基于MUSA Compute Capability 3.1計算架構的全功能GPU上，無縫運行新版本的PyTorch。

未來Torch-MUSA還將繼續(xù)跟進PyTorch的版本更新，計劃支持更高版本的PyTorch。

國產(chǎn)GPU突破！摩爾線程發(fā)布Torch-MUSA v2.0.0：FP8原生支持

本文鏈接：http://www.tebozhan.com/showinfo-24-148944-0.html國產(chǎn)GPU突破！摩爾線程發(fā)布Torch-MUSA v2.0.0：FP8原生支持

聲明：本網(wǎng)頁內容旨在傳播知識，若有侵權等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：差了2GB/s！Intel酷睿Ultra 200S搭配Z890跑不滿PCIe5.0 SSD

下一篇：便宜50系顯卡跳票！曝RTX 5060推遲上市：想買再等等

標簽：

熱門焦點

對標蘋果的靈動島華為帶來實況窗功能

繼蘋果的靈動島之后，華為也在今天正式推出了“實況窗”功能。據(jù)今天鴻蒙OS 4.0的現(xiàn)場演示顯示，華為的實況窗可以更高效的展現(xiàn)出實時通知，比如鎖屏上就能看到外賣、打車、銀行
Flowable工作流引擎的科普與實踐

一.引言當我們在日常工作和業(yè)務中需要進行各種審批流程時，可能會面臨一系列技術和業(yè)務上的挑戰(zhàn)。手動處理這些審批流程可能會導致開發(fā)成本的增加以及業(yè)務復雜度的上升。在這
之家push系統(tǒng)迭代之路

前言在這個信息爆炸的互聯(lián)網(wǎng)時代，能夠及時準確獲取信息是當今社會要解決的關鍵問題之一。隨著之家用戶體量和內容規(guī)模的不斷增大，傳統(tǒng)的靠"主動拉"獲取信息的方式已不能滿足用
如何通過Python線程池實現(xiàn)異步編程？

線程池的概念和基本原理線程池是一種并發(fā)處理機制，它可以在程序啟動時創(chuàng)建一組線程，并將它們置于等待任務的狀態(tài)。當任務到達時，線程池中的某個線程會被喚醒并執(zhí)行任務，執(zhí)行完任
重估百度丨“晚熟”的百度云，能等到春天嗎？

©自象限原創(chuàng)作者｜程心排版｜王喻可2016年7月13日，百度云計算戰(zhàn)略發(fā)布會在北京舉行，宣告著百度智能云的正式啟程。彼時的會場座無虛席，甚至排隊排到了門外，在場的所有人幾乎都
破圈是B站頭上的緊箍咒

來源 | 光子星球撰文 | 吳坤諺編輯 | 吳先之每年的暑期檔都少不了瞄準追劇女孩們的古偶劇集，2021年有優(yōu)酷的《山河令》，2022年有愛奇藝的《蒼蘭訣》，今年卻輪到小破站抓住了追
機構稱Q2全球智能手機出貨量同比下滑11% 蘋果份額依舊第2

7月20日消息，據(jù)外媒報道，研究機構的報告顯示，由于需求下滑，今年二季度全球智能手機的出貨量，同比下滑了11%，三星、蘋果等主要廠商的銷量，較去年同期均有下
聯(lián)想YOGA 16s 2022筆記本將要推出，屏幕支持觸控功能

聯(lián)想此前宣布，將于11月2日19:30召開聯(lián)想秋季輕薄新品發(fā)布會，推出聯(lián)想 YOGA 16s 2022 筆記本等新品。官方稱，YOGA 16s 2022 筆記本將搭載 16 英寸屏幕，并且是一
上海舉辦人工智能大會活動，建設人工智能新高地

人工智能大會在上海浦江兩岸隆重拉開帷幕，人工智能新技術、新產(chǎn)品、新應用、新理念集中亮相。8月30日晚，作為大會的特色活動之一的上海人工智能發(fā)展盛典人工

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

國產(chǎn)GPU突破！摩爾線程發(fā)布Torch-MUSA v2.0.0：FP8原生支持

對標蘋果的靈動島華為帶來實況窗功能

Flowable工作流引擎的科普與實踐

之家push系統(tǒng)迭代之路

如何通過Python線程池實現(xiàn)異步編程？

重估百度丨“晚熟”的百度云，能等到春天嗎？

破圈是B站頭上的緊箍咒

機構稱Q2全球智能手機出貨量同比下滑11% 蘋果份額依舊第2

聯(lián)想YOGA 16s 2022筆記本將要推出，屏幕支持觸控功能

上海舉辦人工智能大會活動，建設人工智能新高地

最新推薦

猜你喜歡

熱門推薦

相關資訊