2 月 24 日消息,月之暗面 Kimi 昨日發(fā)布了“Muon 可擴(kuò)展用于 LLM 訓(xùn)練”的新技術(shù)報(bào)告,并宣布推出“Moonlight”:一個(gè)在 Muon 上訓(xùn)練的 30 億 / 160 億參數(shù)混合專家模型(MoE)。使用了 5.7 萬(wàn)億個(gè) token,在更低的浮點(diǎn)運(yùn)算次數(shù)(FLOPs)下實(shí)現(xiàn)了更好的性能,從而提升了帕累托效率邊界。
月之暗面稱,團(tuán)隊(duì)發(fā)現(xiàn) Muon 優(yōu)化器可通過(guò)添加權(quán)重衰減、仔細(xì)調(diào)整每個(gè)參數(shù)的更新幅度等技術(shù)進(jìn)行擴(kuò)展,并具備如下亮點(diǎn):
這些技術(shù)使得 Muon 能夠在大規(guī)模訓(xùn)練中開(kāi)箱即用,無(wú)需進(jìn)行超參數(shù)調(diào)優(yōu)。擴(kuò)展法則實(shí)驗(yàn)表明,與計(jì)算最優(yōu)訓(xùn)練的 AdamW 相比,Muon 實(shí)現(xiàn)了約 2 倍的計(jì)算效率。
本次論文所使用的模型為 Moonlight-16B-A3B,總參數(shù)量為 15.29B,激活參數(shù)為 2.24B,其使用 Muon 優(yōu)化器,在 5.7T Tokens 的訓(xùn)練數(shù)據(jù)下獲得上述成績(jī)。
我們的模型不僅突破了當(dāng)前的 Pareto 前沿,還在訓(xùn)練所需的 FLOP 數(shù)大幅減少的情況下,達(dá)到了比以往模型更優(yōu)的性能。
我們開(kāi)源了一個(gè)分布式版本的 Muon 實(shí)現(xiàn),它在內(nèi)存使用和通信效率上都進(jìn)行了優(yōu)化。同時(shí),我們也發(fā)布了預(yù)訓(xùn)練模型、經(jīng)過(guò)指令調(diào)優(yōu)的模型以及中間訓(xùn)練檢查點(diǎn),旨在為未來(lái)的研究提供支持。
附有關(guān)鏈接如下:
GitHub:點(diǎn)此前往
Hugging Face :點(diǎn)此前往
本文鏈接:http://www.tebozhan.com/showinfo-45-11075-0.html月之暗面 Kimi 開(kāi)源 Moonlight:30 億 160 億參數(shù)混合專家模型
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com