在人工智能領(lǐng)域,大語(yǔ)言模型(LLM)的演進(jìn)從未停歇,盡管整體架構(gòu)自GPT-2以來(lái)并未發(fā)生根本性變化。近日,Sebastian Raschka博士通過(guò)深入分析OpenAI開(kāi)源的gpt-oss模型(包括120B和20B版本),帶領(lǐng)讀者回顧了從GPT-2到gpt-oss的技術(shù)演進(jìn)之路,并將gpt-oss與另一開(kāi)源模型Qwen3進(jìn)行了詳細(xì)對(duì)比。
8月5日,就在GPT-5發(fā)布的前兩天,OpenAI宣布推出兩款開(kāi)源大語(yǔ)言模型:gpt-oss-120b和gpt-oss-20b。這是自2019年GPT-2發(fā)布以來(lái),OpenAI首次開(kāi)放模型權(quán)重,且得益于巧妙的優(yōu)化技術(shù),這些模型甚至可以在本地設(shè)備上運(yùn)行。
Raschka博士在其文章《從GPT-2到gpt-oss:架構(gòu)進(jìn)步分析》中,詳細(xì)解析了從GPT-2到gpt-oss的架構(gòu)演進(jìn)。他指出,盡管兩者在整體架構(gòu)上相似,但gpt-oss在多個(gè)細(xì)節(jié)上進(jìn)行了優(yōu)化,如移除Dropout、采用RoPE替代絕對(duì)位置編碼、激活函數(shù)從GELU轉(zhuǎn)向Swish/SwiGLU等。
首先,Dropout技術(shù)雖然在早期Transformer架構(gòu)中被廣泛使用,但現(xiàn)代LLM發(fā)現(xiàn)其并不能顯著提升性能,反而可能因單輪訓(xùn)練模式導(dǎo)致下游任務(wù)表現(xiàn)下降。因此,gpt-oss選擇了移除Dropout。
其次,在位置編碼方面,gpt-oss采用了RoPE(旋轉(zhuǎn)位置嵌入)替代傳統(tǒng)的絕對(duì)位置嵌入。RoPE通過(guò)對(duì)query和key向量施加位置相關(guān)的旋轉(zhuǎn)來(lái)編碼位置信息,這種方式更加高效且逐漸成為L(zhǎng)LM的標(biāo)配。
在激活函數(shù)的選擇上,gpt-oss從GELU轉(zhuǎn)向了Swish/SwiGLU。Swish的計(jì)算成本略低于GELU,且在實(shí)踐中表現(xiàn)良好,盡管兩者在建模性能上的差異并不顯著。
更重要的是,gpt-oss對(duì)前饋網(wǎng)絡(luò)模塊進(jìn)行了重構(gòu),引入了帶門(mén)控的GLU(Gated Linear Unit)變體,如SwiGLU。這種結(jié)構(gòu)不僅性能更好,而且總參數(shù)量更少,通過(guò)門(mén)控帶來(lái)的額外乘法交互增強(qiáng)了模型的表達(dá)能力。
gpt-oss還采用了Mixture-of-Experts(MoE,專家混合)技術(shù),用多個(gè)前饋模塊替代單個(gè)前饋模塊,并在每個(gè)token生成步驟中只啟用其中一個(gè)子集。這種做法顯著增加了模型的總參數(shù)量,但通過(guò)稀疏性在推理階段保持了高效率。
在注意力機(jī)制方面,gpt-oss引入了分組查詢注意力(GQA)替代傳統(tǒng)的多頭注意力(MHA),并通過(guò)滑動(dòng)窗口注意力進(jìn)一步降低內(nèi)存占用和計(jì)算成本。同時(shí),gpt-oss還用RMSNorm替代了LayerNorm,以提升訓(xùn)練效率。
在與Qwen3的對(duì)比中,gpt-oss展現(xiàn)出不同的設(shè)計(jì)思路。Qwen3是一個(gè)更深的架構(gòu),而gpt-oss則更寬。在MoE的使用上,gpt-oss采用了少量“大專家”策略,而Qwen3則傾向于更多、更小的專家。gpt-oss在注意力機(jī)制中引入了偏置項(xiàng)和注意力池,以穩(wěn)定注意力機(jī)制。
在性能方面,gpt-oss與OpenAI自研的閉源模型以及Qwen3相當(dāng)。盡管gpt-oss在某些任務(wù)上可能表現(xiàn)出較高的幻覺(jué)傾向,但其作為推理型模型的設(shè)計(jì),使其在成本、算力和準(zhǔn)確度之間找到了良好的平衡。
隨著gpt-oss的開(kāi)源,更多開(kāi)發(fā)者將能夠利用這一強(qiáng)大工具進(jìn)行本地或私有化部署,推動(dòng)人工智能技術(shù)在各領(lǐng)域的廣泛應(yīng)用。
本文鏈接:http://www.tebozhan.com/showinfo-26-177687-0.html從GPT-2到gpt-oss:深入解析大模型進(jìn)化的關(guān)鍵細(xì)節(jié)
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com