2 月 24 日消息,月之暗面 Kimi 昨日發布了“Muon 可擴展用于 LLM 訓練”的新技術報告,并宣布推出“Moonlight”:一個在 Muon 上訓練的 30 億 / 160 億參數混合專家模型(MoE)。使用了 5.7 萬億個 token,在更低的浮點運算次數(FLOPs)下實現了更好的性能,從而提升了帕累托效率邊界。
月之暗面稱,團隊發現 Muon 優化器可通過添加權重衰減、仔細調整每個參數的更新幅度等技術進行擴展,并具備如下亮點:
這些技術使得 Muon 能夠在大規模訓練中開箱即用,無需進行超參數調優。擴展法則實驗表明,與計算最優訓練的 AdamW 相比,Muon 實現了約 2 倍的計算效率。
本次論文所使用的模型為 Moonlight-16B-A3B,總參數量為 15.29B,激活參數為 2.24B,其使用 Muon 優化器,在 5.7T Tokens 的訓練數據下獲得上述成績。
我們的模型不僅突破了當前的 Pareto 前沿,還在訓練所需的 FLOP 數大幅減少的情況下,達到了比以往模型更優的性能。
我們開源了一個分布式版本的 Muon 實現,它在內存使用和通信效率上都進行了優化。同時,我們也發布了預訓練模型、經過指令調優的模型以及中間訓練檢查點,旨在為未來的研究提供支持。
附有關鏈接如下:
GitHub:點此前往
Hugging Face :點此前往
本文鏈接:http://www.tebozhan.com/showinfo-45-11075-0.html月之暗面 Kimi 開源 Moonlight:30 億 160 億參數混合專家模型
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com