AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 科技  > 數(shù)碼

國產(chǎn)GPU突破!摩爾線程發(fā)布Torch-MUSA v2.0.0:FP8原生支持

來源: 責編: 時間:2025-05-11 10:23:32 62觀看
導讀 快科技5月9日消息,近日,國產(chǎn)GPU廠商摩爾線程正式發(fā)布Torch-MUSA v2.0.0版本,這是其面向PyTorch深度學習框架的MUSA擴展庫的重要升級。在Torch-MUSA中,用戶只需指定torch.device("musa"),即可將現(xiàn)有的PyTorch模型

快科技5月9日消息,近日,國產(chǎn)GPU廠商摩爾線程正式發(fā)布Torch-MUSA v2.0.0版本,這是其面向PyTorch深度學習框架的MUSA擴展庫的重要升級。LRB28資訊網(wǎng)——每日最新資訊28at.com

在Torch-MUSA中,用戶只需指定torch.device("musa"),即可將現(xiàn)有的PyTorch模型遷移到MUSA架構的GPU上運行,無需大幅修改代碼,目前Torch-MUSA已完全開源,可通過GitHub獲取源代碼。LRB28資訊網(wǎng)——每日最新資訊28at.com

作為本次升級的核心亮點,Torch-MUSA v2.0.0率先在國產(chǎn)GPU上實現(xiàn)了對FP8數(shù)據(jù)類型的完整支持。LRB28資訊網(wǎng)——每日最新資訊28at.com

FP8是當前AI計算的一種低精度格式,在支持原生FP8的GPU上,大語言模型訓練采用FP8混合精度可大幅提高GPU算力,降低顯存占用。LRB28資訊網(wǎng)——每日最新資訊28at.com

摩爾線程基于新一代MUSA Compute Capability 3.1計算架構的全功能GPU原生支持FP8計算,為Torch-MUSA v2.0.0實現(xiàn)FP8矩陣乘法和分布式通信優(yōu)化提供了基礎。LRB28資訊網(wǎng)——每日最新資訊28at.com

依托這一底層架構優(yōu)勢,Torch-MUSA v2.0.0能夠充分發(fā)揮FP8的計算效能,顯著提升大語言模型訓練和推理的效率。LRB28資訊網(wǎng)——每日最新資訊28at.com

Torch-MUSA v2.0.0在MUSA計算平臺引入多項創(chuàng)新功能,進一步提升深度學習任務的執(zhí)行效率,主要包括:LRB28資訊網(wǎng)——每日最新資訊28at.com

1、新增虛擬內存管理支持:LRB28資訊網(wǎng)——每日最新資訊28at.com

MUSA虛擬內存管理技術能夠有效緩解GPU內存碎片化問題,降低模型訓練過程中的峰值內存占用,特別適用于FSDP、DeepSpeed和Megatron-LM等主流大模型訓練框架。LRB28資訊網(wǎng)——每日最新資訊28at.com

2、新增MUSA Graph支持:LRB28資訊網(wǎng)——每日最新資訊28at.com

MUSA Graph技術將多個MUSA內核整合到一個圖中,通過單次CPU調度大幅減少啟動開銷,提升計算效率,同時與CUDA Graph接口高效兼容。LRB28資訊網(wǎng)——每日最新資訊28at.com

3、torch.compile增加Triton后端支持:LRB28資訊網(wǎng)——每日最新資訊28at.com

為torch.compile提供了Triton-MUSA后端支持,開發(fā)者可以直接使用PyTorch原生接口,獲得更高效的性能表現(xiàn)。LRB28資訊網(wǎng)——每日最新資訊28at.com

不僅如此,Torch-MUSA v2.0.0在完整支持PyTorch 2.2.0的基礎上,還新增了對PyTorch 2.5.0的支持,使開發(fā)者能夠在基于MUSA Compute Capability 3.1計算架構的全功能GPU上,無縫運行新版本的PyTorch。LRB28資訊網(wǎng)——每日最新資訊28at.com

未來Torch-MUSA還將繼續(xù)跟進PyTorch的版本更新,計劃支持更高版本的PyTorch。LRB28資訊網(wǎng)——每日最新資訊28at.com

國產(chǎn)GPU突破!摩爾線程發(fā)布Torch-MUSA v2.0.0:FP8原生支持LRB28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-24-148944-0.html國產(chǎn)GPU突破!摩爾線程發(fā)布Torch-MUSA v2.0.0:FP8原生支持

聲明:本網(wǎng)頁內容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 差了2GB/s!Intel酷睿Ultra 200S搭配Z890跑不滿PCIe5.0 SSD

下一篇: 便宜50系顯卡跳票!曝RTX 5060推遲上市:想買再等等

標簽:
  • 熱門焦點
  • 對標蘋果的靈動島 華為帶來實況窗功能

    繼蘋果的靈動島之后,華為也在今天正式推出了“實況窗”功能。據(jù)今天鴻蒙OS 4.0的現(xiàn)場演示顯示,華為的實況窗可以更高效的展現(xiàn)出實時通知,比如鎖屏上就能看到外賣、打車、銀行
  • Flowable工作流引擎的科普與實踐

    一.引言當我們在日常工作和業(yè)務中需要進行各種審批流程時,可能會面臨一系列技術和業(yè)務上的挑戰(zhàn)。手動處理這些審批流程可能會導致開發(fā)成本的增加以及業(yè)務復雜度的上升。在這
  • 之家push系統(tǒng)迭代之路

    前言在這個信息爆炸的互聯(lián)網(wǎng)時代,能夠及時準確獲取信息是當今社會要解決的關鍵問題之一。隨著之家用戶體量和內容規(guī)模的不斷增大,傳統(tǒng)的靠"主動拉"獲取信息的方式已不能滿足用
  • 如何通過Python線程池實現(xiàn)異步編程?

    線程池的概念和基本原理線程池是一種并發(fā)處理機制,它可以在程序啟動時創(chuàng)建一組線程,并將它們置于等待任務的狀態(tài)。當任務到達時,線程池中的某個線程會被喚醒并執(zhí)行任務,執(zhí)行完任
  • 重估百度丨“晚熟”的百度云,能等到春天嗎?

    ©自象限原創(chuàng)作者|程心排版|王喻可2016年7月13日,百度云計算戰(zhàn)略發(fā)布會在北京舉行,宣告著百度智能云的正式啟程。彼時的會場座無虛席,甚至排隊排到了門外,在場的所有人幾乎都
  • 破圈是B站頭上的緊箍咒

    來源 | 光子星球撰文 | 吳坤諺編輯 | 吳先之每年的暑期檔都少不了瞄準追劇女孩們的古偶劇集,2021年有優(yōu)酷的《山河令》,2022年有愛奇藝的《蒼蘭訣》,今年卻輪到小破站抓住了追
  • 機構稱Q2全球智能手機出貨量同比下滑11% 蘋果份額依舊第2

    7月20日消息,據(jù)外媒報道,研究機構的報告顯示,由于需求下滑,今年二季度全球智能手機的出貨量,同比下滑了11%,三星、蘋果等主要廠商的銷量,較去年同期均有下
  • 聯(lián)想YOGA 16s 2022筆記本將要推出,屏幕支持觸控功能

    聯(lián)想此前宣布,將于11月2日19:30召開聯(lián)想秋季輕薄新品發(fā)布會,推出聯(lián)想 YOGA 16s 2022 筆記本等新品。官方稱,YOGA 16s 2022 筆記本將搭載 16 英寸屏幕,并且是一
  • 上海舉辦人工智能大會活動,建設人工智能新高地

    人工智能大會在上海浦江兩岸隆重拉開帷幕,人工智能新技術、新產(chǎn)品、新應用、新理念集中亮相。8月30日晚,作為大會的特色活動之一的上海人工智能發(fā)展盛典人工
Top