我們正站在AI狂飆的黃金時代——短短半年,全球頂尖模型“智力”飆升50%;2025年幾乎每周都有重磅模型登場;從大語言模型到多模態架構,七類模型架構全速迭代。
當傳統“暴力堆卡”的訓練模式,越來越難以滿足指數級增長的智能生產需求。AI產業亟需要一場“效率革命”,即構建新一代大型人工智能計算基礎設施,以應對生成式AI進化。
國內GPU廠商摩爾線程在WAIC 2025前夕出招了,要用國產全功能GPU打造一個AI“超級工廠”,直擊大模型訓練效率的瓶頸。
這座AI工廠的“產能”,有一道硬核公式來衡量:
AI工廠生產效率 = 加速計算通用性 x 單芯片有效算力 × 單節點效率 × 集群效率 × 集群穩定性
摩爾線程的殺手锏“全功能GPU”,就是這座“AI工廠”的心臟。
根據功能結構劃分,GPU可分為圖形GPU、GPGPU(通用計算GPU)與全功能GPU。既然是全功能GPU,你可以理解為,既能做圖形,也能做AI,還可以做通用計算、科學計算等。全球范圍內,也僅有NVIDIA掌握的尖端技術。而摩爾線程是國內唯一從功能上可以對標英偉達的國產全功能GPU企業。
自2020年成立以來,摩爾線程一直致力于全功能GPU的研發與創新。全功能GPU具備更強的通用性,不僅可以服務數據中心,也具備下沉至消費端的潛力,是真正的全能型選手。
截至目前,摩爾線程已完成了四代全功能GPU的迭代,其中包括支持FP8精度的新智算卡MTT S5000、訓推一體全功能智算卡MTT S4000、支持千卡互聯的第一代超大規模智算融合中心產品KUAE1,以及第二代萬卡集群KUAE2,這些產品已實際交付多個智算中心。
那么,摩爾線程如何打造世界先進的AI工廠?
這是一項系統級創新工程,主要體現在五個關鍵方面:加速計算通用性、單芯片有效算力、單節點效率、集群效率和集群穩定性,這些因素環環相扣缺一不可。
在加速計算通用性方面,摩爾線程自主研發的多引擎全功能GPU,率先實現在單芯片架構,同時支持AI計算加速、圖形渲染、物理仿真和科學計算、超高清視頻編解碼,并覆蓋從FP8到FP64的全計算精度。
不同精度的計算適用于不同的應用場景,例如FP8用于混合精度訓練和大語言模型推理,INT8用于量化推理和CV推理,BF16/FP16用于機器學習和大語言模型訓練,FP32/TF32用于3D渲染、游戲和高精度推理訓練等,而FP64則主要用于科學計算,如天氣預報和氣候仿真等。
摩爾線程的全功能GPU能夠支持以上全部精度的訓練推理,從而實現AI訓練推理、科學計算、工業智能、自動駕駛、具身智能、生物制藥、AIGC、AI智能體、游戲等全場景AI加速。
有了應用場景,性能跟不上那也是白搭,摩爾線程自研的MUSA架構從底層基礎設施到中間層管理平臺,再到上層應用,實現了全面覆蓋,通過計算、通信、存儲技術創新,有效提升了單芯片有效算力。
MUSA架構,是創新的多引擎、可伸縮GPU架構,通過硬件資源池化及動態資源調度技術,構建了全局共享的計算、內存與通訊資源池。這一設計不僅突破了傳統GPU功能單一的限制,還在保障通用性的同時顯著提升了資源利用率。
在計算層面,摩爾線程的AI加速系統(TCE/TME)全面支持INT8/FP8/FP16/BF16/TF32等多種混合精度計算。作為國內首批實現FP8算力量產的GPU廠商,其FP8技術通過快速格式轉換、動態范圍智能適配和高精度累加器等創新設計,在保證計算精度的同時,將Transformer計算性能提升約30%。
此外,DeepSeek曾在技術報告中提到,在通信過程中約15%的流式多處理器被占用,也就是差不多15%的算力沒有用到訓練中,而是被用于通信。
摩爾線程是如何解決這個問題的呢,基于自研的MTLINK 2.0實現的集合通信庫,實現卡間高速互聯,高出國內行業平均水平60%的帶寬;同時基于MTT S5000的異步通信引擎,從而實現高效計算與通信并行,減少了15%的計算資源損耗,為大規模集群部署奠定了堅實基礎。
內存系統方面,通過多精度近存規約引擎、低延遲Scale-Up、通算并行資源隔離等技術,實現了50%的帶寬節省和60%的延遲降低。
有了單芯片的算力,還需要實現單節點的高效率,摩爾線程的MUSA全棧系統軟件,通過高效的基礎軟件庫,框架算法創新和完備的開發工具鏈提升了單節點計算效率。
在GPU驅動任務調度優化方面,摩爾線程的核函數啟動時間僅為業界平均耗時的1/2,核函數啟動是指計算任務從CPU主機傳輸到GPU設備并執行的過程,傳統方法中,較高的啟動延遲會導致算力資源浪費。而摩爾線程則支持千次計算指令并行下發,從而大幅減少GPU等待時間。
摩爾線程還對核心算子庫進行了極致優化,比如GEMM算子算力利用率達98%,Flash Attention 算子算力利用率突破95%。
在通信效率上,MCCL通信庫實現RDMA網絡97%帶寬利用率;基于異步通信引擎優化計算通信并行,集群性能提升10%。
在開發生態兼容上,基于Triton-MUSA編譯器 + MUSA Graph 實現DeepSeek R1推理加速1.5倍,全面兼容Triton等主流框架。
此外,摩爾線程還提供了完整的開發者工具套件,如深度監控GPU并收集硬件性能數據的Torch Profiler,以及可以一鍵部署MUSA軟件棧和AI服務程序的MUSA Deploy等。
正是這種軟硬協同與系統優化,實現了極致性能和效率,從平湖和國際主流GPU產品的實測對比數據中,我們可以直觀地看到摩爾線程產品的優勢。
在集群方面,如前文所述,摩爾線程擁有支持千卡互聯的KUAE1和支持萬卡互聯的第二代方案KUAE2,并實現了模型種類全支持,無論何種類型的模型都能適用,這也是真正滿足AI工廠使用和實現的地方。
根據官方分享的數據,KUAE2在不同架構模型的實測MFU數據對比中,性能和效率均處于行業領先水平。
后也是重要的一點,那就是穩定性,集群不穩定的話,再高的性能再快的效率也沒有任何意義,為此摩爾線程推出了零中斷容錯技術,故障發生時僅隔離受影響節點組,其余節點繼續訓練,備機無縫接入,全程無中斷,這也使得KUAE集群有效訓練時間占比超99%。
針對集群中的慢節點,摩爾線程開發了一套多維度Training Insight,將異常處理效率提升了50%,結合集群巡檢與起飛檢查,訓練成功率及速度提高了10%。
綜合來看,摩爾線程的高效AI工廠結合了全功能GPU、MUSA架構、MUSA軟件棧、KUAE集群和零中斷技術,為AI大模型訓練提供了強大可靠的基礎設施支持,而且只有這樣的組合,才能確保每一個環節都達到佳狀態。
大模型訓練完成后,還需要進行推理驗證,摩爾線程的推理解決方案基于MT Transformer自研推理引擎、TensorX自研推理引擎和vLLM-MUSA推理框架,為模型驗證和部署提供極致性能支持。
通過實測,MTT S5000樹立了DeepSeek全量模型推理速度的新標桿:跑滿血DeepSeek R1推理模型,速度達到100 tokens/s。
GPU可以說是AI時代稀缺的資源之一,也是大國科技競爭的焦點,其重要性不言而喻。我們深知硬科技研發的艱難,但摩爾線程還是選擇了通用性強、難度高的全功能GPU路線。
從全功能GPU的研發,到“AI工廠”概念的提出與實踐,摩爾線程這條道路雖然充滿挑戰,但它無疑是能夠走得長遠的路徑。未來,我們期待摩爾線程能夠持續突破技術瓶頸,以更強大的算力、更高效的架構、更穩定的性能,為國產AI的發展注入強勁動力。
本文鏈接:http://www.tebozhan.com/showinfo-24-174289-0.html國產GPU進化!打造先進好用的“AI訓練工廠”
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com