當(dāng)前位置：首頁(yè) > 科技 > 軟件

從GPT-2到gpt-oss：深入解析大模型進(jìn)化的關(guān)鍵細(xì)節(jié)

來(lái)源：責(zé)編：時(shí)間：2025-08-18 12:08:07 10觀看

導(dǎo)讀在人工智能領(lǐng)域，大語(yǔ)言模型（LLM）的演進(jìn)從未停歇，盡管整體架構(gòu)自GPT-2以來(lái)并未發(fā)生根本性變化。近日，Sebastian Raschka博士通過(guò)深入分析OpenAI開(kāi)源的gpt-oss模型（包括120B和20B版本），帶領(lǐng)讀者回顧了從GPT-2到gpt-oss的技術(shù)演

在人工智能領(lǐng)域，大語(yǔ)言模型（LLM）的演進(jìn)從未停歇，盡管整體架構(gòu)自GPT-2以來(lái)并未發(fā)生根本性變化。近日，Sebastian Raschka博士通過(guò)深入分析OpenAI開(kāi)源的gpt-oss模型（包括120B和20B版本），帶領(lǐng)讀者回顧了從GPT-2到gpt-oss的技術(shù)演進(jìn)之路，并將gpt-oss與另一開(kāi)源模型Qwen3進(jìn)行了詳細(xì)對(duì)比。

8月5日，就在GPT-5發(fā)布的前兩天，OpenAI宣布推出兩款開(kāi)源大語(yǔ)言模型：gpt-oss-120b和gpt-oss-20b。這是自2019年GPT-2發(fā)布以來(lái)，OpenAI首次開(kāi)放模型權(quán)重，且得益于巧妙的優(yōu)化技術(shù)，這些模型甚至可以在本地設(shè)備上運(yùn)行。

Raschka博士在其文章《從GPT-2到gpt-oss：架構(gòu)進(jìn)步分析》中，詳細(xì)解析了從GPT-2到gpt-oss的架構(gòu)演進(jìn)。他指出，盡管兩者在整體架構(gòu)上相似，但gpt-oss在多個(gè)細(xì)節(jié)上進(jìn)行了優(yōu)化，如移除Dropout、采用RoPE替代絕對(duì)位置編碼、激活函數(shù)從GELU轉(zhuǎn)向Swish/SwiGLU等。

首先，Dropout技術(shù)雖然在早期Transformer架構(gòu)中被廣泛使用，但現(xiàn)代LLM發(fā)現(xiàn)其并不能顯著提升性能，反而可能因單輪訓(xùn)練模式導(dǎo)致下游任務(wù)表現(xiàn)下降。因此，gpt-oss選擇了移除Dropout。

其次，在位置編碼方面，gpt-oss采用了RoPE（旋轉(zhuǎn)位置嵌入）替代傳統(tǒng)的絕對(duì)位置嵌入。RoPE通過(guò)對(duì)query和key向量施加位置相關(guān)的旋轉(zhuǎn)來(lái)編碼位置信息，這種方式更加高效且逐漸成為L(zhǎng)LM的標(biāo)配。

在激活函數(shù)的選擇上，gpt-oss從GELU轉(zhuǎn)向了Swish/SwiGLU。Swish的計(jì)算成本略低于GELU，且在實(shí)踐中表現(xiàn)良好，盡管兩者在建模性能上的差異并不顯著。

更重要的是，gpt-oss對(duì)前饋網(wǎng)絡(luò)模塊進(jìn)行了重構(gòu)，引入了帶門(mén)控的GLU（Gated Linear Unit）變體，如SwiGLU。這種結(jié)構(gòu)不僅性能更好，而且總參數(shù)量更少，通過(guò)門(mén)控帶來(lái)的額外乘法交互增強(qiáng)了模型的表達(dá)能力。

gpt-oss還采用了Mixture-of-Experts（MoE，專家混合）技術(shù)，用多個(gè)前饋模塊替代單個(gè)前饋模塊，并在每個(gè)token生成步驟中只啟用其中一個(gè)子集。這種做法顯著增加了模型的總參數(shù)量，但通過(guò)稀疏性在推理階段保持了高效率。

在注意力機(jī)制方面，gpt-oss引入了分組查詢注意力（GQA）替代傳統(tǒng)的多頭注意力（MHA），并通過(guò)滑動(dòng)窗口注意力進(jìn)一步降低內(nèi)存占用和計(jì)算成本。同時(shí)，gpt-oss還用RMSNorm替代了LayerNorm，以提升訓(xùn)練效率。

在與Qwen3的對(duì)比中，gpt-oss展現(xiàn)出不同的設(shè)計(jì)思路。Qwen3是一個(gè)更深的架構(gòu)，而gpt-oss則更寬。在MoE的使用上，gpt-oss采用了少量“大專家”策略，而Qwen3則傾向于更多、更小的專家。gpt-oss在注意力機(jī)制中引入了偏置項(xiàng)和注意力池，以穩(wěn)定注意力機(jī)制。

在性能方面，gpt-oss與OpenAI自研的閉源模型以及Qwen3相當(dāng)。盡管gpt-oss在某些任務(wù)上可能表現(xiàn)出較高的幻覺(jué)傾向，但其作為推理型模型的設(shè)計(jì)，使其在成本、算力和準(zhǔn)確度之間找到了良好的平衡。

隨著gpt-oss的開(kāi)源，更多開(kāi)發(fā)者將能夠利用這一強(qiáng)大工具進(jìn)行本地或私有化部署，推動(dòng)人工智能技術(shù)在各領(lǐng)域的廣泛應(yīng)用。

本文鏈接：http://www.tebozhan.com/showinfo-26-177687-0.html從GPT-2到gpt-oss：深入解析大模型進(jìn)化的關(guān)鍵細(xì)節(jié)

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：小米14周年慶典：雷軍贈(zèng)2000份自研玄戒O1紀(jì)念版手機(jī)，回饋用戶支持

下一篇：華為Pura 80系列霸榜2025中國(guó)電信AI與衛(wèi)星通信評(píng)測(cè)

標(biāo)簽：

熱門(mén)焦點(diǎn)

5月安卓手機(jī)好評(píng)榜：魅族20 Pro奪冠

性能榜和性價(jià)比榜之后，我們來(lái)看最后的安卓手機(jī)好評(píng)榜，數(shù)據(jù)來(lái)源安兔兔評(píng)測(cè)，收集時(shí)間2023年5月1日至5月31日，僅限國(guó)內(nèi)市場(chǎng)。第一名：魅族20 Pro好評(píng)率：97.50%不得不感慨魅族老品牌還
0糖0卡0脂旭日森林仙草烏龍茶優(yōu)惠：15瓶到手29元

旭日森林無(wú)糖仙草烏龍茶510ml*15瓶平時(shí)要賣(mài)為79.9元，今日下單領(lǐng)取50元優(yōu)惠券，到手價(jià)為29.9元。產(chǎn)品規(guī)格：0糖0卡0脂，添加草本仙草汁，清涼爽口，富含茶多酚，保留
K8S | Service服務(wù)發(fā)現(xiàn)

一、背景在微服務(wù)架構(gòu)中，這里以開(kāi)發(fā)環(huán)境「Dev」為基礎(chǔ)來(lái)描述，在K8S集群中通常會(huì)開(kāi)放：路由網(wǎng)關(guān)、注冊(cè)中心、配置中心等相關(guān)服務(wù)，可以被集群外部訪問(wèn)；圖片對(duì)于測(cè)試「Tes」環(huán)境或者
自動(dòng)化在DevOps中的力量：簡(jiǎn)化軟件開(kāi)發(fā)和交付

自動(dòng)化在DevOps中扮演著重要角色，它提升了DevOps的效能。通過(guò)自動(dòng)化工具和方法，DevOps團(tuán)隊(duì)可以實(shí)現(xiàn)以下目標(biāo)：消除手動(dòng)和重復(fù)性任務(wù)。簡(jiǎn)化流程。在整個(gè)軟件開(kāi)發(fā)生命周期中實(shí)現(xiàn)更
大廠卷向扁平化

來(lái)源：新熵作者丨南枝編輯丨月見(jiàn)大廠職級(jí)不香了。俗話說(shuō)，兵無(wú)常勢(shì)，水無(wú)常形，互聯(lián)網(wǎng)企業(yè)調(diào)整職級(jí)體系并不稀奇。7月13日，淘寶天貓集團(tuán)啟動(dòng)了近年來(lái)最大的人力制度改革，目前已形成一
疑似小米14外觀設(shè)計(jì)圖曝光：后置相機(jī)模組變化不大

下半年的大幕已經(jīng)開(kāi)啟，而誰(shuí)將成為下半年手機(jī)圈的主角就成為了大家關(guān)注的焦點(diǎn)，其中被傳有望拿下新一代驍龍8 Gen3旗艦芯片的小米14系列更是備受大家矚
華為發(fā)布HarmonyOS 4：更好玩、更流暢、更安全

在8月4日的華為開(kāi)發(fā)者大會(huì)2023（HDC.Together）大會(huì)上，HarmonyOS 4正式發(fā)布。自2019年發(fā)布以來(lái)，HarmonyOS一直以用戶為中心，經(jīng)歷四年多的發(fā)展HarmonyOS已
華為開(kāi)發(fā)者大會(huì)2023日程公開(kāi)：開(kāi)設(shè)鴻蒙HarmonyOS 4體驗(yàn)區(qū)

IT之家 7 月 31 日消息，華為今日公布了 HDC.Together 開(kāi)發(fā)者大會(huì) 2023 的詳細(xì)日程。整場(chǎng)大會(huì)將于 8 月 4 日-6 日之間舉行，屆時(shí)將發(fā)布最新一代鴻蒙 H
蘋(píng)果140W USB-C充電器：采用氮化鎵技術(shù)

據(jù)10 月 30 日 9to5 Mac 消息報(bào)道，當(dāng)蘋(píng)果推出新的 MacBook Pro 2021 時(shí)，該公司還推出了新的 140W USB-C 充電器，附贈(zèng)在 MacBook Pro 16 英寸機(jī)型的盒子里，也支

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

從GPT-2到gpt-oss：深入解析大模型進(jìn)化的關(guān)鍵細(xì)節(jié)

5月安卓手機(jī)好評(píng)榜：魅族20 Pro奪冠

0糖0卡0脂旭日森林仙草烏龍茶優(yōu)惠：15瓶到手29元

K8S | Service服務(wù)發(fā)現(xiàn)

自動(dòng)化在DevOps中的力量：簡(jiǎn)化軟件開(kāi)發(fā)和交付

大廠卷向扁平化

疑似小米14外觀設(shè)計(jì)圖曝光：后置相機(jī)模組變化不大

華為發(fā)布HarmonyOS 4：更好玩、更流暢、更安全

華為開(kāi)發(fā)者大會(huì)2023日程公開(kāi)：開(kāi)設(shè)鴻蒙HarmonyOS 4體驗(yàn)區(qū)

蘋(píng)果140W USB-C充電器：采用氮化鎵技術(shù)

最新推薦

猜你喜歡

熱門(mén)推薦

相關(guān)資訊