AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 科技  > 手機

英偉達含量為零!華為135B密集模型性能比肩DeepSeek-R1:純昇騰集群訓練

來源: 責編: 時間:2025-04-16 07:19:20 63觀看
導讀 密集模型的推理能力也能和DeepSeek-R1掰手腕了?華為利用純昇騰集群訓練出的盤古Ultra,在數學競賽、編程等推理任務當中,和R1打得有來有回。關鍵是模型參數量只有135B,整個訓練過程零英偉達含量,而且沒有出現損失

密集模型的推理能力也能和DeepSeek-R1掰手腕了?Dzp28資訊網——每日最新資訊28at.com

華為利用純昇騰集群訓練出的盤古Ultra,在數學競賽、編程等推理任務當中,和R1打得有來有回。Dzp28資訊網——每日最新資訊28at.com

關鍵是模型參數量只有135B,整個訓練過程零英偉達含量,而且沒有出現損失尖峰。Dzp28資訊網——每日最新資訊28at.com

英偉達含量為零!華為135B密集模型性能比肩DeepSeek-R1:純昇騰集群訓練Dzp28資訊網——每日最新資訊28at.com

通過改進的模型架構和系統優化策略,盤古Ultra擁有優異的性能表現和52%以上的算力利用率。Dzp28資訊網——每日最新資訊28at.com

并且有網友表示,訓練過程中沒有出現損失尖峰這一特征,似乎此前從未實現。Dzp28資訊網——每日最新資訊28at.com

英偉達含量為零!華為135B密集模型性能比肩DeepSeek-R1:純昇騰集群訓練Dzp28資訊網——每日最新資訊28at.com

135B密集模型比肩DeepSeek-R1Dzp28資訊網——每日最新資訊28at.com

作為一個參數量135B密集模型,盤古Ultra達到了同尺度密集模型的優表現,甚至可以與DeepSeek-R1等參數量更大的MoE模型競爭。Dzp28資訊網——每日最新資訊28at.com

在預訓練階段模型的評測中,盤古Ultra在絕大部分英文基準任務和全部中文任務上取得了佳性能,優于Llama 405B、DeepSeek-V3等baseline模型。Dzp28資訊網——每日最新資訊28at.com

尤其在MMLU、TriviaQA、GSM8K等具有挑戰性的數據集上,盤古Ultra展現出了卓越的語言理解和推理能力。Dzp28資訊網——每日最新資訊28at.com

英偉達含量為零!華為135B密集模型性能比肩DeepSeek-R1:純昇騰集群訓練Dzp28資訊網——每日最新資訊28at.com

經過指令調優后,盤古Ultra的性能進一步提升,尤其在AIME 2024、MATH-500等數學推理任務和LiveCodeBench等編程競賽題上達到了SOTA水平。Dzp28資訊網——每日最新資訊28at.com

綜合來看,盤古Ultra超越了包括GPT-4o、Mistral-Large 2等強大模型,與DeepSeek-R1等MoE模型競爭激烈。Dzp28資訊網——每日最新資訊28at.com

同時,盤古Ultra在Arena Hard、MMLU-pro等涵蓋通用語言理解和推理的評測中也表現優異。Dzp28資訊網——每日最新資訊28at.com

英偉達含量為零!華為135B密集模型性能比肩DeepSeek-R1:純昇騰集群訓練Dzp28資訊網——每日最新資訊28at.com

那么,為了實現這樣的效果,盤古Ultra采用了哪些關鍵技術呢?Dzp28資訊網——每日最新資訊28at.com

“三明治”層歸一化架構Dzp28資訊網——每日最新資訊28at.com

如前文所述,盤古Ultra是一款135B參數量的密集模型,使用了94層的網絡結構。Dzp28資訊網——每日最新資訊28at.com

盤古Ultra采用了分組查詢注意力(GQA)機制,包含96個查詢頭(query head)和8個鍵值頭(key-value head)。Dzp28資訊網——每日最新資訊28at.com

為了解決訓練超深網絡面臨的不穩定性和收斂困難等問題,盤古Ultra在模型架構上做出了兩個關鍵改進——深度縮放的Sandwich-Norm層歸一化和TinyInit參數初始化策略。Dzp28資訊網——每日最新資訊28at.com

傳統的Transformer通常使用Pre-LN層歸一化,但在深度模型中,Pre-LN容易導致每個子層輸出尺度的波動,引發訓練不穩定。Dzp28資訊網——每日最新資訊28at.com

盤古Ultra使用的Sandwich-Norm層歸一化,則是在殘差連接前對每個子層的輸出做歸一化,并根據網絡深度對初始化值進行縮放,從而有效消除了訓練過程中的loss尖峰,使訓練過程更加平穩。Dzp28資訊網——每日最新資訊28at.com

用更容易理解的話說,傳統方法僅在每個子層的輸入進行歸一化,但這種方法針對輸出也進行了歸一化,形成了Pre-Norm + 子層 + Post-Norm的“三明治”結構。Dzp28資訊網——每日最新資訊28at.com

英偉達含量為零!華為135B密集模型性能比肩DeepSeek-R1:純昇騰集群訓練Dzp28資訊網——每日最新資訊28at.com

但是,僅僅使用Sandwich-Norm還不足以完全消除深度模型訓練中的不穩定性——隨著網絡層數的增加,每一層的輸出尺度仍然可能出現累積性的漂移。Dzp28資訊網——每日最新資訊28at.com

為此,盤古Ultra在Sandwich-Norm的基礎上,進一步引入了深度縮放機制,對Post-Norm中的放縮參數γ進行了深度相關的初始化。Dzp28資訊網——每日最新資訊28at.com

英偉達含量為零!華為135B密集模型性能比肩DeepSeek-R1:純昇騰集群訓練Dzp28資訊網——每日最新資訊28at.com

至于整個模型的初始化,傳統的初始化通常采用的Xavier初始化方法僅考慮模型寬度,而盤古Ultra采用的TinyInit同時依據模型深度和寬度來縮放初始化權重的標準差。Dzp28資訊網——每日最新資訊28at.com

這種初始化方式有助于在前向傳播和反向傳播過程中,維持各層梯度的方差在一個合理的范圍內,避免了梯度消失或爆炸問題,使得訓練過程更加穩定,同時也加速了收斂。Dzp28資訊網——每日最新資訊28at.com

實驗表明,TinyInit在深度模型訓練中取得了更好的收斂速度和下游任務性能;同時針對embedding層,保持權重的標準差接近1也能提升訓練穩定性。Dzp28資訊網——每日最新資訊28at.com

另外,盤古團隊也針對Tokenizer進行了優化,通過在通用中英文、代碼、數學等不同領域分別進行詞頻統計,再合并去重,終得到了一個兼顧領域覆蓋和編碼效率的153376個token的平衡詞表。Dzp28資訊網——每日最新資訊28at.com

英偉達含量為零!華為135B密集模型性能比肩DeepSeek-R1:純昇騰集群訓練Dzp28資訊網——每日最新資訊28at.com

8192張昇騰NPU訓練集群Dzp28資訊網——每日最新資訊28at.com

盤古Ultra的整個訓練流程主要分為三個階段——預訓練、長上下文擴展和指令調優。Dzp28資訊網——每日最新資訊28at.com

其中預訓練又可以分為三個子階段:Dzp28資訊網——每日最新資訊28at.com

通用階段:側重建立語言理解和知識儲備,使用了大量中英文通用語料,覆蓋網頁、書籍、百科等多個來源;Dzp28資訊網——每日最新資訊28at.com

推理階段:引入更多高質量的數學和代碼數據,以增強模型的推理能力。同時還使用instruction數據來幫助模型學習執行任務;Dzp28資訊網——每日最新資訊28at.com

退火階段:幫助模型鞏固知識和推理能力,并強化指令遵循能力。大量使用問答對和人類反饋數據。Dzp28資訊網——每日最新資訊28at.com

研究者們采用了基于規則和模型的數據清洗方法,并設計了curriculum learning策略,讓模型循序漸進地學習不同難度的樣本。Dzp28資訊網——每日最新資訊28at.com

預訓練中使用了AdamW優化器,并動態調整超參數。Dzp28資訊網——每日最新資訊28at.com

英偉達含量為零!華為135B密集模型性能比肩DeepSeek-R1:純昇騰集群訓練Dzp28資訊網——每日最新資訊28at.com

預訓練后,模型在長128K的長上下文數據上進一步訓練,通過擴大RoPE的基頻來實現長序列建模,以增強處理長文檔的能力。Dzp28資訊網——每日最新資訊28at.com

后的指令調優階則段使用監督微調(SFT)和強化學習(RL)來使模型更好地適應下游任務,學會執行指令并與人類偏好對齊。Dzp28資訊網——每日最新資訊28at.com

訓練設施方面,盤古Ultra使用了一個由8192個昇騰AI處理器組成的大規模計算集群。Dzp28資訊網——每日最新資訊28at.com

集群中每個節點包含8個NPU,通過華為高速緩存一致性互聯HCCS以全互聯的拓撲結構連接,每個NPU配備64GB內存,節點間則通過200Gbps的RoCE(RDMA over Converged Ethernet)網絡互聯。Dzp28資訊網——每日最新資訊28at.com

為了實現盤古Ultra的高效訓練,研究團隊還采用了一套系統的并行策略和優化技術。Dzp28資訊網——每日最新資訊28at.com

在并行策略的選擇上,盤古Ultra綜合考慮了模型的規模、數據的特性以及硬件的拓撲,終采用了數據并行、張量并行、序列并行和流水線并行等多種并行方式的組合:Dzp28資訊網——每日最新資訊28at.com

128路數據并行,將訓練數據分片到不同設備,保證了數據吞吐;8路張量并行,利用設備內部高帶寬切分層內張量,實現高效通信;序列并行用于處理超長序列以降低顯存壓力;8段流水線并行,將不同層分布到不同設備,形成高效的計算流水線。Dzp28資訊網——每日最新資訊28at.com

英偉達含量為零!華為135B密集模型性能比肩DeepSeek-R1:純昇騰集群訓練Dzp28資訊網——每日最新資訊28at.com

在并行策略的基礎上,盤古Ultra還從多個角度對訓練系統進行了深度優化。Dzp28資訊網——每日最新資訊28at.com

一方面,通過使用ZeRO(Zero Redundancy Optimizer)分布式優化器,將模型狀態分片到不同設備,大幅降低了單個設備的內存占用,在提高數據并行度的同時,確保了每個設備的內存負擔在可接受范圍內。Dzp28資訊網——每日最新資訊28at.com

另一方面,研究者們通過各種通信和計算優化技術,小化了通信開銷,提升了計算效率:Dzp28資訊網——每日最新資訊28at.com

通過算子融合(Kernel Fusion)將多個小算子合并,減少了內存訪問和kernel啟動;通過通信計算重疊(Communication-Computation Overlapping)實現通信和計算的深度交織,隱藏通信延遲;MC^2(Merged Computation & Communication)和BOA(Batch Optimization Accelerator)分別對張量并行和規范化層的通信進行了專門優化……Dzp28資訊網——每日最新資訊28at.com

英偉達含量為零!華為135B密集模型性能比肩DeepSeek-R1:純昇騰集群訓練Dzp28資訊網——每日最新資訊28at.com

在算法、工程、數據各個層面的精細優化下,盤古Ultra實現了52%以上的算力利用率。Dzp28資訊網——每日最新資訊28at.com

技術報告:https://github.com/pangu-tech/pangu-ultra/blob/main/pangu-ultra-report.pdfDzp28資訊網——每日最新資訊28at.com


文章出處:量子位

本文鏈接:http://www.tebozhan.com/showinfo-22-144384-0.html英偉達含量為零!華為135B密集模型性能比肩DeepSeek-R1:純昇騰集群訓練

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 2025年Q1全球智能手機份額公布:三星位居第一 領先蘋果

下一篇: 曝華為Mate 80系列Q4末登場:發布時間比iPhone 17晚

標簽:
  • 熱門焦點
  • 小米平板5 Pro 12.4簡評:多專多能 兼顧影音娛樂的大屏利器

    疫情帶來了網課,網課盤活了安卓平板,安卓平板市場雖然中途停滯了幾年,但好的一點就是停滯的這幾年行業又有了新的發展方向,例如超窄邊框、高刷新率、多攝鏡頭組合等,這就讓安卓
  • SpringBoot中使用Cache提升接口性能詳解

    環境:springboot2.3.12.RELEASE + JSR107 + Ehcache + JPASpring 框架從 3.1 開始,對 Spring 應用程序提供了透明式添加緩存的支持。和事務支持一樣,抽象緩存允許一致地使用各
  • 如何使用JavaScript創建一只圖像放大鏡?

    譯者 | 布加迪審校 | 重樓如果您曾經瀏覽過購物網站,可能遇到過圖像放大功能。它可以讓您放大圖像的特定區域,以便瀏覽。結合這個小小的重要功能可以大大改善您網站的用戶體驗
  • 一文掌握 Golang 模糊測試(Fuzz Testing)

    模糊測試(Fuzz Testing)模糊測試(Fuzz Testing)是通過向目標系統提供非預期的輸入并監視異常結果來發現軟件漏洞的方法。可以用來發現應用程序、操作系統和網絡協議等中的漏洞或
  • 三分鐘白話RocketMQ系列—— 如何發送消息

    我們知道RocketMQ主要分為消息 生產、存儲(消息堆積)、消費 三大塊領域。那接下來,我們白話一下,RocketMQ是如何發送消息的,揭秘消息生產全過程。注意,如果白話中不小心提到相關代
  • 為什么你不應該使用Div作為可點擊元素

    按鈕是為任何網絡應用程序提供交互性的最常見方式。但我們經常傾向于使用其他HTML元素,如 div span 等作為 clickable 元素。但通過這樣做,我們錯過了許多內置瀏覽器的功能。
  • 認真聊聊東方甄選:如何告別低垂的果實

    來源:山核桃作者:財經無忌爆火一年后,俞敏洪和他的東方甄選依舊是頗受外界關心的“網紅”。7月5日至9日,為期5天的東方甄選“甘肅行”首次在自有App內直播,
  • 2納米決戰2025

    集微網報道 從三強爭霸到四雄逐鹿,2nm的廝殺聲已然隱約傳來。無論是老牌勁旅臺積電、三星,還是誓言重回先進制程領先地位的英特爾,甚至初成立不久的新
  • OPPO K11采用全方位護眼屏:三大護眼能力減輕視覺疲勞

    日前OPPO官方宣布,全新的OPPO K11將于7月25日正式發布,將主打旗艦影像,和同檔位競品相比,其最大的賣點就是將配備索尼IMX890主攝,堪稱是2000檔位影像表
Top