當(dāng)前位置：首頁 > 科技 > 互聯(lián)網(wǎng)

憑一篇博客入職OpenAI，他的優(yōu)化器能成為GPT-5的秘密武器嗎？

來源：責(zé)編：時(shí)間：2025-06-17 09:52:49 38觀看

導(dǎo)讀近日，AI領(lǐng)域迎來了一則引人注目的消息。據(jù)AI云服務(wù)商Hyperbolic的聯(lián)合創(chuàng)始人兼首席技術(shù)官Yuchen Jin在社交平臺上的爆料，研究員Keller Jordan僅憑一篇博客文章就成功加入了OpenAI，并有可能正在利用文章中提及的神經(jīng)網(wǎng)絡(luò)

近日，AI領(lǐng)域迎來了一則引人注目的消息。據(jù)AI云服務(wù)商Hyperbolic的聯(lián)合創(chuàng)始人兼首席技術(shù)官Yuchen Jin在社交平臺上的爆料，研究員Keller Jordan僅憑一篇博客文章就成功加入了OpenAI，并有可能正在利用文章中提及的神經(jīng)網(wǎng)絡(luò)隱藏層優(yōu)化器Muon來訓(xùn)練GPT-5。

Yuchen Jin指出，許多研究人員，包括過去的自己，都曾誤以為在頂級學(xué)術(shù)會議上發(fā)表論文才是最終目標(biāo)。然而，Keller Jordan用實(shí)際行動(dòng)證明了，發(fā)表論文并不等同于產(chǎn)生影響力。他的博客文章《Muon：神經(jīng)網(wǎng)絡(luò)隱藏層的優(yōu)化器》雖然只是以博客形式發(fā)布，卻讓他成功加入了OpenAI。

Keller Jordan的這篇博客發(fā)布于2024年12月，詳細(xì)介紹了Muon優(yōu)化器的設(shè)計(jì)、實(shí)證結(jié)果及其與先前研究的聯(lián)系。Muon是一個(gè)針對神經(jīng)網(wǎng)絡(luò)隱藏層二維參數(shù)的優(yōu)化器，它在NanoGPT和CIFAR-10的快速運(yùn)行中刷新了訓(xùn)練速度的記錄。具體來說，Muon使用Newton-Schulz矩陣迭代作為后處理步驟，來優(yōu)化SGD-momentum生成的更新，從而提高了訓(xùn)練效率。

根據(jù)Keller Jordan的博客內(nèi)容，Muon在多個(gè)任務(wù)上均取得了顯著的實(shí)證成果。例如，在CIFAR-10數(shù)據(jù)集上，它將訓(xùn)練速度記錄提高到了94%的準(zhǔn)確率，并將訓(xùn)練時(shí)間從3.3秒縮短到了2.6秒。Muon還在NanoGPT快速運(yùn)行的競賽任務(wù)FineWeb上刷新了訓(xùn)練速度記錄，提高了1.35倍。更重要的是，Muon在擴(kuò)展到更大規(guī)模模型時(shí)，繼續(xù)顯示出了訓(xùn)練速度的提升。

Keller Jordan在博客中還深入探討了Muon的設(shè)計(jì)原理，解釋了為什么正交化更新是可行的。他指出，SGD-momentum和Adam等傳統(tǒng)優(yōu)化器對基于Transformer的神經(jīng)網(wǎng)絡(luò)中的二維參數(shù)產(chǎn)生的更新通常具有非常高的條件數(shù)，即這些更新幾乎是低秩矩陣。通過正交化這些更新，Muon能夠有效地增加其他“稀有方向”的規(guī)模，從而提高學(xué)習(xí)性能。

除了設(shè)計(jì)原理外，Keller Jordan還在博客中提供了Muon與AdamW等標(biāo)準(zhǔn)優(yōu)化器的對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示，在多個(gè)任務(wù)和數(shù)據(jù)集上，Muon均表現(xiàn)出了優(yōu)于AdamW的訓(xùn)練效率。特別是在訓(xùn)練大型語言模型時(shí)，Muon的FLOP開銷低于1%，卻能夠顯著提高訓(xùn)練速度。

Keller Jordan的這篇博客不僅引起了學(xué)術(shù)界的關(guān)注，更讓他成功加入了OpenAI。據(jù)職場社交平臺領(lǐng)英顯示，Keller Jordan正是在2024年12月加入OpenAI的。由此可以推測，他正是憑借這篇博客中介紹的Muon優(yōu)化器，成功進(jìn)入了這家如日中天的頭部大模型企業(yè)。

目前，尚不清楚Muon是否已經(jīng)成為GPT-5訓(xùn)練中的關(guān)鍵技術(shù)。但無論如何，Keller Jordan的這篇博客和Muon優(yōu)化器都已經(jīng)引起了業(yè)界的廣泛關(guān)注。隨著OpenAI對GPT-5研究的深入，我們有理由期待Muon能夠在未來的人工智能領(lǐng)域發(fā)揮更加重要的作用。

本文鏈接：http://www.tebozhan.com/showinfo-21-160303-0.html憑一篇博客入職OpenAI，他的優(yōu)化器能成為GPT-5的秘密武器嗎？

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：華為Pura 80 Ultra震撼登場：影像巔峰，5700mAh大電池續(xù)航無憂！

下一篇：中東富豪豪擲千金，加價(jià)兩百萬求購尊界S800余承東能否如愿？

標(biāo)簽：

熱門焦點(diǎn)

一加Ace2 Pro真機(jī)揭曉鈦空灰配色質(zhì)感拉滿

終于，在經(jīng)過了幾波預(yù)熱之后，一加Ace2 Pro的外觀真機(jī)圖在網(wǎng)上出現(xiàn)了。還是博主數(shù)碼閑聊站曝光的，這次的外觀設(shè)計(jì)還是延續(xù)了一加11的方案，只是細(xì)節(jié)上有了調(diào)整，例如新加入了鈦空灰
服務(wù)存儲設(shè)計(jì)模式：Cache-Aside模式

Cache-Aside模式一種常用的緩存方式，通常是把數(shù)據(jù)從主存儲加載到KV緩存中，加速后續(xù)的訪問。在存在重復(fù)度的場景，Cache-Aside可以提升服務(wù)性能，降低底層存儲的壓力，缺點(diǎn)是緩存和底
K8S | Service服務(wù)發(fā)現(xiàn)

一、背景在微服務(wù)架構(gòu)中，這里以開發(fā)環(huán)境「Dev」為基礎(chǔ)來描述，在K8S集群中通常會開放：路由網(wǎng)關(guān)、注冊中心、配置中心等相關(guān)服務(wù)，可以被集群外部訪問；圖片對于測試「Tes」環(huán)境或者
一篇聊聊Go錯(cuò)誤封裝機(jī)制

%w 是用于錯(cuò)誤包裝（Error Wrapping）的格式化動(dòng)詞。它是用于 fmt.Errorf 和 fmt.Sprintf 函數(shù)中的一個(gè)特殊格式化動(dòng)詞，用于將一個(gè)錯(cuò)誤（或其他可打印的值）包裝在一個(gè)新的錯(cuò)誤中。使
企業(yè)采用CRM系統(tǒng)的11個(gè)好處

客戶關(guān)系管理（CRM）軟件可以為企業(yè)提供很多的好處，從客戶保留到提高生產(chǎn)力。　　CRM軟件用于企業(yè)收集客戶互動(dòng)，以改善客戶體驗(yàn)和滿意度。　　CRM軟件市場規(guī)模如今超過580
自研Exynos回歸！三星Galaxy S24系列將提供Exynos和驍龍雙版本

年初，全新的三星Galaxy S23系列發(fā)布，包含Galaxy S23、Galaxy S23+和Galaxy S23 Ultra三個(gè)版本，全系搭載超頻版驍龍8 Gen 2，雖同樣采用臺積電4nm工藝制
OPPO K11搭載高性能石墨散熱系統(tǒng)：旗艦同款性能涼爽釋放

日前OPPO官方宣布，將于7月25日14:30舉辦新品發(fā)布會，屆時(shí)全新的OPPO K11將正式與大家見面，將主打旗艦影像，和同檔位競品相比，其最大的賣點(diǎn)就是將配備索尼
最薄的14英寸游戲筆記本電腦 Alienware X14已可以購買

2022年1月份在國際消費(fèi)電子展(CES2022)上首次亮相的Alienware新品——Alienware X14現(xiàn)在已經(jīng)可以購買了，這款筆記本電腦被譽(yù)為世界上最薄的 14 英寸游戲筆
電博會與軟博會實(shí)現(xiàn)"線下+云端"的雙線融合

在本次“電博會”與“軟博會”雙展會利好條件的加持下，既可以發(fā)揮展會拉動(dòng)人流、信息流、資金流實(shí)現(xiàn)快速交互流動(dòng)的作用，繼而推動(dòng)區(qū)域經(jīng)濟(jì)良性發(fā)展；又可以聚

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

憑一篇博客入職OpenAI，他的優(yōu)化器能成為GPT-5的秘密武器嗎？

一加Ace2 Pro真機(jī)揭曉鈦空灰配色質(zhì)感拉滿

服務(wù)存儲設(shè)計(jì)模式：Cache-Aside模式

K8S | Service服務(wù)發(fā)現(xiàn)

一篇聊聊Go錯(cuò)誤封裝機(jī)制

企業(yè)采用CRM系統(tǒng)的11個(gè)好處

自研Exynos回歸！三星Galaxy S24系列將提供Exynos和驍龍雙版本

OPPO K11搭載高性能石墨散熱系統(tǒng)：旗艦同款性能涼爽釋放

最薄的14英寸游戲筆記本電腦 Alienware X14已可以購買

電博會與軟博會實(shí)現(xiàn)"線下+云端"的雙線融合

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊