近日,AI領(lǐng)域迎來了一則引人注目的消息。據(jù)AI云服務(wù)商Hyperbolic的聯(lián)合創(chuàng)始人兼首席技術(shù)官Yuchen Jin在社交平臺上的爆料,研究員Keller Jordan僅憑一篇博客文章就成功加入了OpenAI,并有可能正在利用文章中提及的神經(jīng)網(wǎng)絡(luò)隱藏層優(yōu)化器Muon來訓(xùn)練GPT-5。
Yuchen Jin指出,許多研究人員,包括過去的自己,都曾誤以為在頂級學(xué)術(shù)會議上發(fā)表論文才是最終目標(biāo)。然而,Keller Jordan用實(shí)際行動(dòng)證明了,發(fā)表論文并不等同于產(chǎn)生影響力。他的博客文章《Muon:神經(jīng)網(wǎng)絡(luò)隱藏層的優(yōu)化器》雖然只是以博客形式發(fā)布,卻讓他成功加入了OpenAI。
Keller Jordan的這篇博客發(fā)布于2024年12月,詳細(xì)介紹了Muon優(yōu)化器的設(shè)計(jì)、實(shí)證結(jié)果及其與先前研究的聯(lián)系。Muon是一個(gè)針對神經(jīng)網(wǎng)絡(luò)隱藏層二維參數(shù)的優(yōu)化器,它在NanoGPT和CIFAR-10的快速運(yùn)行中刷新了訓(xùn)練速度的記錄。具體來說,Muon使用Newton-Schulz矩陣迭代作為后處理步驟,來優(yōu)化SGD-momentum生成的更新,從而提高了訓(xùn)練效率。
根據(jù)Keller Jordan的博客內(nèi)容,Muon在多個(gè)任務(wù)上均取得了顯著的實(shí)證成果。例如,在CIFAR-10數(shù)據(jù)集上,它將訓(xùn)練速度記錄提高到了94%的準(zhǔn)確率,并將訓(xùn)練時(shí)間從3.3秒縮短到了2.6秒。Muon還在NanoGPT快速運(yùn)行的競賽任務(wù)FineWeb上刷新了訓(xùn)練速度記錄,提高了1.35倍。更重要的是,Muon在擴(kuò)展到更大規(guī)模模型時(shí),繼續(xù)顯示出了訓(xùn)練速度的提升。
Keller Jordan在博客中還深入探討了Muon的設(shè)計(jì)原理,解釋了為什么正交化更新是可行的。他指出,SGD-momentum和Adam等傳統(tǒng)優(yōu)化器對基于Transformer的神經(jīng)網(wǎng)絡(luò)中的二維參數(shù)產(chǎn)生的更新通常具有非常高的條件數(shù),即這些更新幾乎是低秩矩陣。通過正交化這些更新,Muon能夠有效地增加其他“稀有方向”的規(guī)模,從而提高學(xué)習(xí)性能。
除了設(shè)計(jì)原理外,Keller Jordan還在博客中提供了Muon與AdamW等標(biāo)準(zhǔn)優(yōu)化器的對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示,在多個(gè)任務(wù)和數(shù)據(jù)集上,Muon均表現(xiàn)出了優(yōu)于AdamW的訓(xùn)練效率。特別是在訓(xùn)練大型語言模型時(shí),Muon的FLOP開銷低于1%,卻能夠顯著提高訓(xùn)練速度。
Keller Jordan的這篇博客不僅引起了學(xué)術(shù)界的關(guān)注,更讓他成功加入了OpenAI。據(jù)職場社交平臺領(lǐng)英顯示,Keller Jordan正是在2024年12月加入OpenAI的。由此可以推測,他正是憑借這篇博客中介紹的Muon優(yōu)化器,成功進(jìn)入了這家如日中天的頭部大模型企業(yè)。
目前,尚不清楚Muon是否已經(jīng)成為GPT-5訓(xùn)練中的關(guān)鍵技術(shù)。但無論如何,Keller Jordan的這篇博客和Muon優(yōu)化器都已經(jīng)引起了業(yè)界的廣泛關(guān)注。隨著OpenAI對GPT-5研究的深入,我們有理由期待Muon能夠在未來的人工智能領(lǐng)域發(fā)揮更加重要的作用。
本文鏈接:http://www.tebozhan.com/showinfo-21-160303-0.html憑一篇博客入職OpenAI,他的優(yōu)化器能成為GPT-5的秘密武器嗎?
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com