隨著人工智能領域對算力的需求呈現指數級增長,大智算集群已成為模型訓練不可或缺的基礎設施。這一趨勢的背后,是模型參數與數據量的不斷膨脹,驅動著算力需求的急劇上升。從GPT、Llama到Grok等主流模型的發展歷程中,算力需求的增長尤為顯著,Grok-4等最新模型的算力需求已較早期模型提升了近千倍。7fO28資訊網——每日最新資訊28at.com
在大規模集群訓練的場景下,算力需求的增長帶來了前所未有的挑戰。以DeepSeek、Kimi K2及GPT-4等模型為例,其訓練所需的算力及時間成本均極為高昂。即便是采用高性能的英偉達H100集群,訓練這些模型也需耗費數十天乃至數百天的時間。因此,單純依靠擴大集群規模已難以滿足當前的算力需求,亟需探索新的解決方案。7fO28資訊網——每日最新資訊28at.com
在這一背景下,低精度訓練成為了提升訓練效率的關鍵途徑。從FP32到FP16,再到如今的FP8,精度的降低帶來了算力的顯著提升。然而,精度的下降也伴隨著模型效果的損失。如何在精度與算力之間找到平衡點,成為了業界關注的焦點。摩爾線程副總裁王華在WAIC2025期間的摩爾線程技術分享日上,以《基于FP8的國產萬卡訓練》為主題,分享了摩爾線程在這一領域的創新與思考。7fO28資訊網——每日最新資訊28at.com
王華指出,通過引入精度參數,可以構建新的Scaling Law模型,從而在參數量、數據量與精度之間找到最優配置。實驗結果表明,FP8成為了精度與算力之間的最佳平衡點。然而,低精度訓練也面臨著諸多挑戰,如數值范圍小、易上溢下溢等問題。為解決這些問題,摩爾線程采用了混合精度訓練等技術手段,對非敏感部分采用FP8進行計算,而對敏感部分則繼續使用高精度。7fO28資訊網——每日最新資訊28at.com
7fO28資訊網——每日最新資訊28at.com
在軟硬件支持方面,摩爾線程提供了全棧的完整解決方案。硬件上,其GPU支持從FP64到FP8的全精度算力;軟件上,摩爾線程推出了Torch-MUSA、MT-MegatronLM及MT-TransformerEngine等開源框架,這些框架均支持FP8混合精度訓練,并實現了對FP8數據類型的完整支持。在此基礎上,摩爾線程成功復現了DeepSeek-V3的整個訓練過程,成為業內率先能復現DeepSeek滿血版訓練的廠商。7fO28資訊網——每日最新資訊28at.com
王華還分享了摩爾線程在FP8訓練上的探索與實驗。在scaling factor的選擇及outlier的影響等方面,摩爾線程進行了深入的研究,并提出了有效的解決方案。例如,在scaling factor的選擇上,摩爾線程采用了Per-Tensor及JIT動態的scaling factor選擇策略;在降低outlier影響方面,則采用了Smooth SwiGLU等技術手段。7fO28資訊網——每日最新資訊28at.com
在大規模集群訓練方面,摩爾線程同樣取得了顯著的進展。為提高集群訓練的可靠性,摩爾線程引入了起飛檢查、飛行檢查及落地檢查等訓練生命周期管理措施。同時,針對慢節點及容錯訓練等問題,摩爾線程也提出了相應的解決方案。例如,在慢節點檢測方面,摩爾線程通過起飛檢查階段的小工作負載測試及訓練過程中的通信執行時間監測等手段,有效識別并解決了慢節點問題;在容錯訓練方面,則采用了動態摘除故障節點等策略,確保了集群訓練的持續穩定運行。7fO28資訊網——每日最新資訊28at.com
7fO28資訊網——每日最新資訊28at.com
王華的分享不僅展示了摩爾線程在FP8低精度訓練及大規模集群訓練方面的創新成果,也為業界提供了寶貴的參考與借鑒。隨著人工智能技術的不斷發展,摩爾線程將繼續深耕這一領域,為人工智能的未來發展貢獻更多力量。7fO28資訊網——每日最新資訊28at.com
舉報 0收藏 0打賞 0分享 3 更多>同類資訊2025年:中國芯片企業借AI浪潮,破局重生2025年是AI應用的爆發年,也是關乎國產算力企業興衰存亡的關鍵之年?,F在真正做到了芯片、模型助力場景應用,場景反饋回來的數據,又增加了模型跟芯片進一步地迭代,形成了一個非常良性的正向循環?!蔽覀儚男酒瑥S商的…08-04

企業數字化轉型新指南:深度解讀IOMM成熟度模型中國建設銀行構建了以"龍舟"運維PaaS平臺為基礎的工具體系,涵蓋18個公共組件和35個運維業務應用,通過云計算風險管理框架抵御百萬次網絡攻擊,同時面向客戶提供多元化金融科技服務,實現了IT部門向價值中心的轉…08-04

AI+安全:賦能與風險并存,安全大模型一體機成廠商新賽道以ChatGPT 為代表的生成式人工智能技術在網絡安全領域是一把“雙刃劍”,一方面,AI可以賦能網絡安全,提升風險檢測與防護能力;另一方面,AI 的濫用將對國家、社會、公眾帶來負面影響,同時,AI 新技術的…08-04

浙大發布“悟空”類腦計算機:神經元規模超20億,模擬獼猴大腦快科技8月2日消息,浙江大學腦機智能全國重點實驗室正式發布了新一代神經擬態類腦計算機——Darwin Monkey,中文名 “悟空”。整臺計算機支持的脈沖神經元規模超過20億,數量已接近獼猴大腦規模。 達爾…08-04

沈陽新注冊低空經濟公司,注冊資本高達1.1億,或將引領產業新風向08-03

新石器無人車公司注冊資本大幅提升,增至3705萬元!08-03

華為哈勃攜手入股清程極智,國產算力軟件服務商再添新動力08-03

軟通動力攜手芯粒微,共探芯片研發新領域08-03

科大訊飛布局AI領域,新商標“AI星朋友”引發關注08-03

科大訊飛攜手上海云休信息科技,云享智慧第二大股東迎新伙伴08-03

軟通動力海南布局,新設國際科技公司注冊資本高達5億08-03

優必選布局衢州,新科技公司成立注冊資本達3000萬08-03

2025人工智能大會亮點:上半年AI企業激增50余萬家,新趨勢何在?08-03

重慶10億級半導體私募股權投資基金“兩江芯徵程”正式成立08-03

天津艾銳人工智能創業投資基金成立,2億資金助力人才創新08-03點擊查看更多 +
全站最新
2025世界機器人大會啟幕在即:智慧機器人,共筑智能未來

中國科研團隊突破:用“蒸籠法”制造高性能硒化銦晶體管材料

小米ChinaJoy打造“人車家”智能生態展,全方位演繹科技生活新圖景

小米電競新機曝光:玄戒處理器+165Hz屏+9千毫安電池,游戲黨福音?

智界R7改款座椅大升級,余承東預告8月8日開啟小訂

小米自研玄戒處理器電競手機曝光:165Hz屏+9千毫安電池,性能對標頂尖
熱門內容- 雷軍抖音賬號變動引熱議:武漢大學標簽悄然消失?
- 華為盤古大模型風波:內部員工揭露研發過程中的套殼與續訓問題
- 阿里開源480B參數編程模型Qwen3-Coder,超越Kimi K2,強化學習訓練細節公開
- Cursor斷供風波:AI開發圈震蕩,程序員呼吁退款引熱議
- 榮耀X70評測:耐用新標桿,IP69K防水抗摔,8300mAh電池續航無憂
- 阿里開源Qwen3-Coder,AI編程能力媲美Claude4,新手一天頂資深一周
- 華為盤古大模型被指抄襲?開發團隊正式回應:尊重知識產權,否認指控
- 阿里巴巴1688升級AI服務:新品App與查詢工具上線,賦能中小企業高效采購
- 華為Mate 80系列爆料:全新麒麟9030,eSIM與低軌衛星通訊技術加持
- 華為鴻蒙5.1系統7月31日升級:Pura80領銜,30余款設備迎新體驗
- 光伏電站智能化管理:提升效率,降低成本,助力“雙碳”目標實現
- 雷軍抖音賬號母校標簽“武漢大學”消失,或涉平臺隱私調整
- 華為盤古大模型被指抄襲?開發團隊正式回應:遵循開源規范
- 國家網信辦約談英偉達:要求闡釋H20算力芯片安全隱患及后門風險
- 阿里自研旗艦AI眼鏡WAIC 2025首發,探索智能終端新未來
本欄最新
企業數字化轉型新指南:深度解讀IOMM成熟度模型

AI+安全:賦能與風險并存,安全大模型一體機成廠商新賽道

浙大發布“悟空”類腦計算機:神經元規模超20億,模擬獼猴大腦

沈陽新注冊低空經濟公司,注冊資本高達1.1億,或將引領產業新風向

新石器無人車公司注冊資本大幅提升,增至3705萬元!

華為哈勃攜手入股清程極智,國產算力軟件服務商再添新動力
本文鏈接:http://www.tebozhan.com/showinfo-45-25797-0.html摩爾線程王華解析:大智算集群時代,FP8精度與集群可靠性助力萬億模型訓練
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 庫克定調蘋果AI戰略:聚焦核心,加大投資,不追首創追領先
下一篇: GPT-5誕生之路坎坷:核心人才流失,推理難題待解,英偉達助力突破