AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁 > 元宇宙 > AI

從GPT-2到gpt-oss:深入解析大模型進(jìn)化的關(guān)鍵細(xì)節(jié)

來源: 責(zé)編: 時間:2025-08-18 12:09:25 4觀看
導(dǎo)讀在人工智能領(lǐng)域,大語言模型(LLM)的演進(jìn)從未停歇,盡管整體架構(gòu)自GPT-2以來并未發(fā)生根本性變化。近日,Sebastian Raschka博士通過深入分析OpenAI開源的gpt-oss模型(包括120B和20B版本),帶領(lǐng)讀者回顧了從GPT-2到gpt-oss的技術(shù)演

在人工智能領(lǐng)域,大語言模型(LLM)的演進(jìn)從未停歇,盡管整體架構(gòu)自GPT-2以來并未發(fā)生根本性變化。近日,Sebastian Raschka博士通過深入分析OpenAI開源的gpt-oss模型(包括120B和20B版本),帶領(lǐng)讀者回顧了從GPT-2到gpt-oss的技術(shù)演進(jìn)之路,并將gpt-oss與另一開源模型Qwen3進(jìn)行了詳細(xì)對比。pV228資訊網(wǎng)——每日最新資訊28at.com

8月5日,就在GPT-5發(fā)布的前兩天,OpenAI宣布推出兩款開源大語言模型:gpt-oss-120b和gpt-oss-20b。這是自2019年GPT-2發(fā)布以來,OpenAI首次開放模型權(quán)重,且得益于巧妙的優(yōu)化技術(shù),這些模型甚至可以在本地設(shè)備上運行。pV228資訊網(wǎng)——每日最新資訊28at.com

Raschka博士在其文章《從GPT-2到gpt-oss:架構(gòu)進(jìn)步分析》中,詳細(xì)解析了從GPT-2到gpt-oss的架構(gòu)演進(jìn)。他指出,盡管兩者在整體架構(gòu)上相似,但gpt-oss在多個細(xì)節(jié)上進(jìn)行了優(yōu)化,如移除Dropout、采用RoPE替代絕對位置編碼、激活函數(shù)從GELU轉(zhuǎn)向Swish/SwiGLU等。pV228資訊網(wǎng)——每日最新資訊28at.com

首先,Dropout技術(shù)雖然在早期Transformer架構(gòu)中被廣泛使用,但現(xiàn)代LLM發(fā)現(xiàn)其并不能顯著提升性能,反而可能因單輪訓(xùn)練模式導(dǎo)致下游任務(wù)表現(xiàn)下降。因此,gpt-oss選擇了移除Dropout。pV228資訊網(wǎng)——每日最新資訊28at.com

其次,在位置編碼方面,gpt-oss采用了RoPE(旋轉(zhuǎn)位置嵌入)替代傳統(tǒng)的絕對位置嵌入。RoPE通過對query和key向量施加位置相關(guān)的旋轉(zhuǎn)來編碼位置信息,這種方式更加高效且逐漸成為LLM的標(biāo)配。pV228資訊網(wǎng)——每日最新資訊28at.com

在激活函數(shù)的選擇上,gpt-oss從GELU轉(zhuǎn)向了Swish/SwiGLU。Swish的計算成本略低于GELU,且在實踐中表現(xiàn)良好,盡管兩者在建模性能上的差異并不顯著。pV228資訊網(wǎng)——每日最新資訊28at.com

更重要的是,gpt-oss對前饋網(wǎng)絡(luò)模塊進(jìn)行了重構(gòu),引入了帶門控的GLU(Gated Linear Unit)變體,如SwiGLU。這種結(jié)構(gòu)不僅性能更好,而且總參數(shù)量更少,通過門控帶來的額外乘法交互增強(qiáng)了模型的表達(dá)能力。pV228資訊網(wǎng)——每日最新資訊28at.com

gpt-oss還采用了Mixture-of-Experts(MoE,專家混合)技術(shù),用多個前饋模塊替代單個前饋模塊,并在每個token生成步驟中只啟用其中一個子集。這種做法顯著增加了模型的總參數(shù)量,但通過稀疏性在推理階段保持了高效率。pV228資訊網(wǎng)——每日最新資訊28at.com

在注意力機(jī)制方面,gpt-oss引入了分組查詢注意力(GQA)替代傳統(tǒng)的多頭注意力(MHA),并通過滑動窗口注意力進(jìn)一步降低內(nèi)存占用和計算成本。同時,gpt-oss還用RMSNorm替代了LayerNorm,以提升訓(xùn)練效率。pV228資訊網(wǎng)——每日最新資訊28at.com

pV228資訊網(wǎng)——每日最新資訊28at.com

在與Qwen3的對比中,gpt-oss展現(xiàn)出不同的設(shè)計思路。Qwen3是一個更深的架構(gòu),而gpt-oss則更寬。在MoE的使用上,gpt-oss采用了少量“大專家”策略,而Qwen3則傾向于更多、更小的專家。gpt-oss在注意力機(jī)制中引入了偏置項和注意力池,以穩(wěn)定注意力機(jī)制。pV228資訊網(wǎng)——每日最新資訊28at.com

在性能方面,gpt-oss與OpenAI自研的閉源模型以及Qwen3相當(dāng)。盡管gpt-oss在某些任務(wù)上可能表現(xiàn)出較高的幻覺傾向,但其作為推理型模型的設(shè)計,使其在成本、算力和準(zhǔn)確度之間找到了良好的平衡。pV228資訊網(wǎng)——每日最新資訊28at.com

隨著gpt-oss的開源,更多開發(fā)者將能夠利用這一強(qiáng)大工具進(jìn)行本地或私有化部署,推動人工智能技術(shù)在各領(lǐng)域的廣泛應(yīng)用。pV228資訊網(wǎng)——每日最新資訊28at.com

舉報 0收藏 0打賞 0評論 0    更多>同類資訊中歐AI合作:共拓發(fā)展空間,共筑治理新未來] 作為全球人工智能(AI)賽道的兩大勁旅,歐盟目前主要以標(biāo)準(zhǔn)與規(guī)則為導(dǎo)向深化AI的基礎(chǔ)研究與垂直應(yīng)用,而中國主要以創(chuàng)新與發(fā)展為導(dǎo)向拓展AI的研發(fā)空間與立體場景。同時,中國可利用AI技術(shù)與應(yīng)用的差異化優(yōu)勢…08-18石頭科技Q2財報高增長,華安證券力挺:智能清潔市場前景廣闊其次,石頭科技在歐亞市場的占有率顯著提高,這不僅是品牌影響力的體現(xiàn),也顯示了消費者對其產(chǎn)品的信任和認(rèn)可。 總的來說,石頭科技的2025年第二季度財報展示了其在智能清潔領(lǐng)域的持續(xù)增長潛力,盡管面臨一些挑戰(zhàn),但憑…08-18人大新研:AI助手實現(xiàn)本地網(wǎng)絡(luò)雙搜,打造高效智能搜索新方案更重要的是,HierSearch不僅答案質(zhì)量更高,搜索效率也更好,避免了傳統(tǒng)系統(tǒng)經(jīng)常出現(xiàn)的無效搜索問題。 在實際應(yīng)用效果的分析中,研究團(tuán)隊發(fā)現(xiàn)HierSearch在多知識源環(huán)境中的搜索成功率和推理成功率都顯著…08-18AI重塑廣東網(wǎng)絡(luò)視聽:超高清智能化引領(lǐng)文化傳播新時代張良杰教授預(yù)言,數(shù)據(jù)資產(chǎn)化將是網(wǎng)絡(luò)視聽領(lǐng)域下一步發(fā)展的關(guān)鍵走向。這一變化不僅顯著提升了制作效率,更為眾多中小型內(nèi)容創(chuàng)作者打開了新的發(fā)展空間。他指出,網(wǎng)絡(luò)音視頻數(shù)據(jù)在大數(shù)據(jù)總量中占據(jù)了60%至70%的份額,如何…08-18訊飛醫(yī)療科技股價大漲15.38%,8月14日成交額達(dá)4256.80萬港元訊飛醫(yī)療科技市盈率 38.45 倍,行業(yè)排名第 25 位;其他同行業(yè)公司如平安好醫(yī)生(BG01.HK/558))為 52.68倍、阿里健康(BG88.HK/499)為 48.35 倍、醫(yī)渡科技(BG033.…08-18華為Pura 80系列霸榜2025中國電信AI與衛(wèi)星通信評測例如在AI社交方面,華為Pura 80系列推出的AI互動主題舞林萌主,能夠通過生動有趣的動作與人交互并呈現(xiàn)不同狀態(tài),還能智能識別音樂、充電、佩戴耳機(jī)等使用場景,自動觸發(fā)相應(yīng)的動畫效果,使其成為許多用戶喜愛的…08-17奇安信亮相2025數(shù)博會,以AI驅(qū)動數(shù)據(jù)安全,共探數(shù)字經(jīng)濟(jì)安全新路徑隨著人工智能大模型技術(shù)的爆發(fā)式發(fā)展,數(shù)據(jù)作為大模型訓(xùn)練與應(yīng)用的核心“燃料”,其安全防護(hù)已成為行業(yè)不可回避的核心關(guān)切。本屆數(shù)博會,奇安信將以“AI賦能數(shù)據(jù)安全”為主題,全面展示AI時代數(shù)據(jù)安全防護(hù)最新成果。奇…08-17ChatGPT負(fù)責(zé)人:GPT-5仍存編造信息問題,用戶需核對答案08-17科大訊飛智能機(jī)器人閃耀世界機(jī)器人大會,展現(xiàn)認(rèn)知智能新高度在這場匯聚全球頂尖機(jī)器人技術(shù)與成果的科技盛宴上,科大訊飛攜其最新研發(fā)的智能機(jī)器人產(chǎn)品驚艷亮相,憑借依托星火大模型打造的強(qiáng)大“大腦”,展現(xiàn)出機(jī)器人在認(rèn)知智能領(lǐng)域的突破性進(jìn)展,成為大會焦點,引發(fā)廣泛關(guān)注。 科大訊…08-17AI賦能廣東網(wǎng)絡(luò)視聽:超高清+智能化開啟文化傳播新篇章2025年是國家超高清產(chǎn)業(yè)發(fā)展的元年,人工智能(AI)技術(shù)正深刻改變網(wǎng)絡(luò)視聽產(chǎn)業(yè)的生態(tài)。深圳大學(xué)智能服務(wù)計算研究中心主任張良杰在接受羊城晚報采訪時表示,AI技術(shù)的應(yīng)用不僅提升了視聽內(nèi)容的精度和體驗感,還推動了…08-17華爾街大空頭巴里二季度轉(zhuǎn)向,大手筆買入阿里京東看漲期權(quán)華爾街知名對沖基金經(jīng)理邁克爾·巴里在今年二季度對中概股態(tài)度發(fā)生重大轉(zhuǎn)變。這一操作與其一季度做空中概股的策略形成鮮明對比,顯示出其對中國資產(chǎn)前景判斷的顯著調(diào)整。 自2022年四季度起,巴里開始布局中國資產(chǎn),對阿…08-17科大訊飛引領(lǐng)人形機(jī)器人新紀(jì)元:大模型技術(shù)加速場景應(yīng)用落地其機(jī)器人超腦平臺總經(jīng)理劉可為指出,大模型技術(shù)的進(jìn)步極大地推動了認(rèn)知智能的發(fā)展,使機(jī)器人具備多輪對話、指令執(zhí)行等能力。通過技術(shù)共享與合作交流,科大訊飛匯聚各方力量,形成了強(qiáng)大的產(chǎn)業(yè)合力,共同推動人形機(jī)器人技術(shù)不…08-17華爾街大空頭巴里二季度調(diào)倉:清空中概股看跌,力挺阿里京東看漲華爾街知名對沖基金經(jīng)理邁克爾·巴里在今年二季度對中概股態(tài)度發(fā)生重大轉(zhuǎn)變。這一操作與其一季度做空中概股的策略形成鮮明對比,顯示出其對中國資產(chǎn)前景判斷的顯著調(diào)整。 自2022年四季度起,巴里開始布局中國資產(chǎn),對阿…08-17奇安信亮相2025數(shù)博會:AI驅(qū)動數(shù)據(jù)安全,共筑數(shù)字經(jīng)濟(jì)安全底座在技術(shù)創(chuàng)新方面,奇安信積極將人工智能、大數(shù)據(jù)等前沿技術(shù)應(yīng)用于數(shù)據(jù)安全和個人信息保護(hù)解決方案中;在標(biāo)準(zhǔn)制定方面,奇安信參與工信部相關(guān)科技項目及國家數(shù)據(jù)安全標(biāo)準(zhǔn)制定,為行業(yè)規(guī)范發(fā)展貢獻(xiàn)智慧;在數(shù)據(jù)安全生態(tài)體系建設(shè)…08-17AI熱潮下,GPU成網(wǎng)絡(luò)供應(yīng)商新金礦思科首席執(zhí)行官查克·羅賓斯(Chuck Robbins)周三在公司2025財年第四季度財報電話會議上與分析師交談時表示,第四季度來自網(wǎng)絡(luò)規(guī)模客戶的AI基礎(chǔ)設(shè)施訂單超過8億美元,2025財年則將達(dá)到20億美元…08-16點擊查看更多 +全站最新2026款深藍(lán)L07煥新登場,全系標(biāo)配華為智駕,打造新能源轎車新標(biāo)桿2026款深藍(lán)L07煥新登場,全系標(biāo)配華為智駕,打造新能源轎車新標(biāo)桿晨光涂料:科技引領(lǐng)轉(zhuǎn)型,成就國際舞臺新輝煌晨光涂料:科技引領(lǐng)轉(zhuǎn)型,成就國際舞臺新輝煌長安第三代UNI-V智能運動轎跑上市,售價10.29萬-11.99萬長安第三代UNI-V智能運動轎跑上市,售價10.29萬-11.99萬比亞迪天神之眼杭州站智駕盛宴落幕,L4級泊車“敢賠”引領(lǐng)行業(yè)新風(fēng)尚比亞迪天神之眼杭州站智駕盛宴落幕,L4級泊車“敢賠”引領(lǐng)行業(yè)新風(fēng)尚歐洲車企裁員潮起,中國新能源車企海外崛起成新趨勢歐洲車企裁員潮起,中國新能源車企海外崛起成新趨勢全新MG4降價來襲,7萬級純電小車新選擇,能否在中國市場逆襲?全新MG4降價來襲,7萬級純電小車新選擇,能否在中國市場逆襲?熱門內(nèi)容
  • 雷軍抖音賬號變動引熱議:武漢大學(xué)標(biāo)簽悄然消失?
  • 阿里開源480B參數(shù)編程模型Qwen3-Coder,超越Kimi K2,強(qiáng)化學(xué)習(xí)訓(xùn)練細(xì)節(jié)公開
  • 阿里開源Qwen3-Coder,AI編程能力媲美Claude4,新手一天頂資深一周
  • 阿里巴巴1688升級AI服務(wù):新品App與查詢工具上線,賦能中小企業(yè)高效采購
  • 華為Mate 80系列爆料:全新麒麟9030,eSIM與低軌衛(wèi)星通訊技術(shù)加持
  • 浙大發(fā)布“悟空”類腦計算機(jī):神經(jīng)元規(guī)模超20億,模擬獼猴大腦
  • 華為鴻蒙5.1系統(tǒng)7月31日升級:Pura80領(lǐng)銜,30余款設(shè)備迎新體驗
  • 光伏電站智能化管理:提升效率,降低成本,助力“雙碳”目標(biāo)實現(xiàn)
  • 雷軍抖音賬號母校標(biāo)簽“武漢大學(xué)”消失,或涉平臺隱私調(diào)整
  • 國家網(wǎng)信辦約談英偉達(dá):要求闡釋H20算力芯片安全隱患及后門風(fēng)險
  • 阿里自研旗艦AI眼鏡WAIC 2025首發(fā),探索智能終端新未來
  • 字節(jié)跳動AI底層架構(gòu)領(lǐng)跑2025:技術(shù)、組織與財務(wù)全面賦能AI時代
  • 馬斯克將為Grok Heavy用戶帶來AI視頻生成器及虛擬男友“Valentine”測試版
  • 英偉達(dá)H20芯片安全風(fēng)險引關(guān)注,網(wǎng)信辦約談要求說明“追蹤定位”等技術(shù)詳情
  • 2025年人工智能發(fā)展藍(lán)圖:趨勢、格局與行業(yè)應(yīng)用深度剖析
本欄最新人大新研:AI助手實現(xiàn)本地網(wǎng)絡(luò)雙搜,打造高效智能搜索新方案人大新研:AI助手實現(xiàn)本地網(wǎng)絡(luò)雙搜,打造高效智能搜索新方案AI重塑廣東網(wǎng)絡(luò)視聽:超高清智能化引領(lǐng)文化傳播新時代AI重塑廣東網(wǎng)絡(luò)視聽:超高清智能化引領(lǐng)文化傳播新時代華為Pura 80系列霸榜2025中國電信AI與衛(wèi)星通信評測華為Pura 80系列霸榜2025中國電信AI與衛(wèi)星通信評測奇安信亮相2025數(shù)博會,以AI驅(qū)動數(shù)據(jù)安全,共探數(shù)字經(jīng)濟(jì)安全新路徑奇安信亮相2025數(shù)博會,以AI驅(qū)動數(shù)據(jù)安全,共探數(shù)字經(jīng)濟(jì)安全新路徑科大訊飛智能機(jī)器人閃耀世界機(jī)器人大會,展現(xiàn)認(rèn)知智能新高度科大訊飛智能機(jī)器人閃耀世界機(jī)器人大會,展現(xiàn)認(rèn)知智能新高度AI賦能廣東網(wǎng)絡(luò)視聽:超高清+智能化開啟文化傳播新篇章AI賦能廣東網(wǎng)絡(luò)視聽:超高清+智能化開啟文化傳播新篇章

本文鏈接:http://www.tebozhan.com/showinfo-45-26723-0.html從GPT-2到gpt-oss:深入解析大模型進(jìn)化的關(guān)鍵細(xì)節(jié)

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 訊飛醫(yī)療科技股價大漲15.38%,8月14日成交額達(dá)4256.80萬港元

下一篇: 中歐AI合作:共拓發(fā)展空間,共筑治理新未來

標(biāo)簽:
  • 熱門焦點
  • 元宇宙步入暗夜

    撰文 | 文燁豪元宇宙的故事,似乎講不通了。 當(dāng)下,刮起元宇宙熱潮的Roblox股價已跌去大半,帶頭大哥Meta也正因元宇宙虧損深陷泥潭。 再看國內(nèi),從字節(jié)“派對島&
  • 【量子位】虛擬數(shù)字人深度產(chǎn)業(yè)報告 | 元宇宙Meta洞見

    虛擬數(shù)字人行業(yè)未來的主要驅(qū)動力包括:用戶代際變化,新一代消費者對內(nèi)容消費和虛擬世界更為渴求;虛擬數(shù)字人相關(guān)技術(shù)門檻相對降低,成本有所回落;資本熱度上升,受Metav
  • 中國區(qū)塊鏈產(chǎn)業(yè)生態(tài)地圖報告(2021)

    區(qū)塊鏈?zhǔn)羌夹g(shù)整合創(chuàng)新、金融創(chuàng)新、組織方式創(chuàng)新、產(chǎn)業(yè)應(yīng)用創(chuàng)新的多維度創(chuàng)新,以服務(wù)實體經(jīng)濟(jì)、政務(wù)民生以及公共服務(wù)等領(lǐng)域為落腳點,以期實現(xiàn)整個地區(qū)和產(chǎn)業(yè)的資
  • 區(qū)塊鏈產(chǎn)業(yè)人才發(fā)展報告

    工業(yè)和信息化部作為工業(yè)和信息化行業(yè)主管部門,正在著力推進(jìn)“兩個強(qiáng)國”建設(shè),加快推動以區(qū)塊鏈為代表的新興技術(shù)與實體經(jīng)濟(jì)深度融合。我國區(qū)塊鏈技術(shù)和應(yīng)用想要
  • 2022年6款最佳的NFT稀有度查詢工具

    NFT正在風(fēng)靡全球,但擁有一個你自認(rèn)為看起來很酷的 NFT 是不夠的,因為它還應(yīng)該是稀有的,稀有度會影響每個 NFT 的價值。因此,如果您打算投資 NFT,則需要使用 NFT 稀
  • 借VR產(chǎn)業(yè)東風(fēng),江西搶灘布局“元宇宙”

    自2016年起就在VR上傾注了大量精力的江西省,迅速搭上了“元宇宙”。VR、AR等技術(shù)是通往元宇宙的關(guān)鍵接口,使人們可以在數(shù)字空間和物理空間自由穿梭。自2016年起
  • 以太坊倫敦升級后,隨之生效的以太坊EIP-1559是什么?

    作者:三黎過去的一年里,除了 BTC 一如既往穩(wěn)坐王位,DEFI 則是貫穿一整年的狂歡熱點。 DeFi 在讓 ETH 實現(xiàn)價值增長的同時,也使得其網(wǎng)絡(luò)日漸擁堵、交易費用增高,成為
  • 技術(shù)賦能,國內(nèi)首家寵物元宇宙平臺“Pet Meta”開啟虛擬養(yǎng)寵新方式

    作者:易明未來,Pet Meta數(shù)字寵物藏品將是鏈接全球數(shù)億愛寵人群與元宇宙世界獨一無二的身份象征。首家面向國內(nèi)的寵物元宇宙平臺Pet Meta生長于“寵物經(jīng)濟(jì)”快速
  • 虛擬鄧麗君后,數(shù)字人賽道開啟3.0時代

    “如果右腦時代來臨,虛擬世界將是對人類才華的無限放大。” 郭曉喆稱,開發(fā)數(shù)字人形象時,自己的團(tuán)隊在內(nèi)部“卷”了一下:“當(dāng)我們翻閱大量歷史典籍的時候,蘇小妹找到
Top