當(dāng)前位置：首頁(yè) > 元宇宙 > AI

上海交大研究LLM強(qiáng)化學(xué)習(xí)：Llama與Qwen差異及OctoThinker新突破

來(lái)源：責(zé)編：時(shí)間：2025-07-04 12:16:41 42觀看

導(dǎo)讀在人工智能領(lǐng)域，大型語(yǔ)言模型（LLM）正通過(guò)結(jié)合任務(wù)提示與強(qiáng)化學(xué)習(xí)（RL）技術(shù)，在復(fù)雜推理任務(wù)上取得顯著進(jìn)展。Deepseek-R1-Zero等模型直接將強(qiáng)化學(xué)習(xí)應(yīng)用于基礎(chǔ)模型，展現(xiàn)出卓越的推理能力。然而，這一成功并未能在所有基礎(chǔ)模型系

在人工智能領(lǐng)域，大型語(yǔ)言模型（LLM）正通過(guò)結(jié)合任務(wù)提示與強(qiáng)化學(xué)習(xí)（RL）技術(shù)，在復(fù)雜推理任務(wù)上取得顯著進(jìn)展。Deepseek-R1-Zero等模型直接將強(qiáng)化學(xué)習(xí)應(yīng)用于基礎(chǔ)模型，展現(xiàn)出卓越的推理能力。然而，這一成功并未能在所有基礎(chǔ)模型系列中輕松復(fù)制，尤其是在Llama系列模型上。

OpenAI的GPT-o1、o3以及DeepSeek的R1等模型，在競(jìng)賽級(jí)數(shù)學(xué)問(wèn)題上通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)取得了重大突破，推動(dòng)了對(duì)于小型模型（參數(shù)少于千億）強(qiáng)化學(xué)習(xí)能力的探索。但這些進(jìn)展大多局限于Qwen模型系列，難以在Llama等模型上重現(xiàn)。預(yù)訓(xùn)練流程的缺乏透明度，使得理解預(yù)訓(xùn)練如何影響強(qiáng)化學(xué)習(xí)的擴(kuò)展變得頗具挑戰(zhàn)性。一些非傳統(tǒng)研究發(fā)現(xiàn)，一次性提示可以增強(qiáng)Qwen的推理能力，但對(duì)Llama模型效果有限。盡管OpenWebMath、MathPile等項(xiàng)目致力于構(gòu)建高質(zhì)量的數(shù)學(xué)預(yù)訓(xùn)練語(yǔ)料庫(kù)，但其規(guī)模依然有限。

上海交通大學(xué)的研究人員針對(duì)Qwen和Llama模型，深入探究了中期訓(xùn)練策略對(duì)強(qiáng)化學(xué)習(xí)動(dòng)態(tài)的影響。他們發(fā)現(xiàn)，高質(zhì)量的數(shù)學(xué)語(yǔ)料庫(kù)，如MegaMath-Web-Pro，能夠同時(shí)提升基礎(chǔ)模型和強(qiáng)化學(xué)習(xí)的效果。使用問(wèn)答式數(shù)據(jù)，特別是包含長(zhǎng)鏈?zhǔn)酵评恚–hain-of-Thought, CoT）的數(shù)據(jù)，可以進(jìn)一步增強(qiáng)強(qiáng)化學(xué)習(xí)的效果。然而，長(zhǎng)CoT也會(huì)在強(qiáng)化學(xué)習(xí)訓(xùn)練中引入冗長(zhǎng)性和不穩(wěn)定性。研究還發(fā)現(xiàn)，在中期訓(xùn)練中應(yīng)用擴(kuò)展可以提升下游強(qiáng)化學(xué)習(xí)的性能。

基于這些發(fā)現(xiàn)，研究人員提出了一種名為“穩(wěn)定-衰減”的兩階段中期訓(xùn)練策略。他們首先使用2000億個(gè)token訓(xùn)練基礎(chǔ)模型，然后在三個(gè)以CoT為中心的分支上使用200億個(gè)token進(jìn)行訓(xùn)練。這一策略成功生成了具有強(qiáng)大強(qiáng)化學(xué)習(xí)兼容性的OctoThinker模型。

在強(qiáng)化學(xué)習(xí)配置和基準(zhǔn)評(píng)估方面，研究人員使用MATH8K數(shù)據(jù)集進(jìn)行訓(xùn)練提示，配置包括全局訓(xùn)練批次大小128、每個(gè)查詢16個(gè)rollout響應(yīng)以及PPO最小批次大小64。實(shí)驗(yàn)在Llama-3.2-3B-Base和Qwen2.5-3B-Base模型上進(jìn)行。在評(píng)估中，基礎(chǔ)語(yǔ)言模型采用少樣本提示，而強(qiáng)化學(xué)習(xí)調(diào)優(yōu)模型則在GSM8K、MATH500、OlympiadBench和AMC23等指標(biāo)任務(wù)上采用零樣本提示。

在強(qiáng)化學(xué)習(xí)訓(xùn)練期間，Qwen模型的響應(yīng)長(zhǎng)度持續(xù)增加并保持在合理范圍內(nèi)，而Llama模型則表現(xiàn)出異常行為，平均響應(yīng)長(zhǎng)度飆升至4096個(gè)token。評(píng)估結(jié)果顯示，強(qiáng)化學(xué)習(xí)調(diào)優(yōu)后的Qwen2.5-3B在各個(gè)基準(zhǔn)測(cè)試中均有所提升，而Llama-3.2-3B的提升則微乎其微。

OctoThinker模型在強(qiáng)化學(xué)習(xí)兼容性方面表現(xiàn)優(yōu)異。在13個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試中，每個(gè)OctoThinker分支都比原始Llama基礎(chǔ)模型提升了10%-20%，并且在所有規(guī)模的穩(wěn)定階段模型上都取得了持續(xù)提升。OctoThinker-Zero系列在強(qiáng)化學(xué)習(xí)擴(kuò)展過(guò)程中展現(xiàn)出多樣化的思維行為，其中OctoThinker-Long變體表現(xiàn)尤為出色。在比較三個(gè)3B規(guī)模基礎(chǔ)模型時(shí)，OctoThinker-Long-3B的表現(xiàn)優(yōu)于原始Llama-3.2-3B模型，并與以強(qiáng)大推理能力和廣泛預(yù)訓(xùn)練而聞名的Qwen2.5-3B模型達(dá)到相近的性能水平。混合分支和短分支的性能略低，尤其是在更具挑戰(zhàn)性的基準(zhǔn)測(cè)試中。

舉報(bào) 0收藏 0打賞 0評(píng)論 0 更多>同類(lèi)資訊MIT新研究：AI寫(xiě)作工具使用或致大腦活躍度下滑07-03SciArena平臺(tái)亮相：科研人員親測(cè)，大語(yǔ)言模型科學(xué)文獻(xiàn)任務(wù)表現(xiàn)大比拼07-03谷歌發(fā)布Gemini for Education：免費(fèi)AI工具助力全球教育創(chuàng)新與公平07-03榮耀總裁方飛：蘋(píng)果入局折疊屏，是激勵(lì)也是新起點(diǎn)07-03OpenAI堅(jiān)持英偉達(dá)與AMD，暫不全面采用谷歌TPU芯片07-03Crunchyroll新動(dòng)畫(huà)字幕出錯(cuò)，疑似AI生成引熱議，觀眾呼吁保證創(chuàng)作質(zhì)量07-03

三星Galaxy Z Fold新機(jī)：7月9日震撼發(fā)布，16GB+1TB高配來(lái)襲現(xiàn)在的手游和應(yīng)用不斷升級(jí)，對(duì)配置的要求越來(lái)越高，所以不少品牌推出自研芯片、性能引擎、算法等方面，進(jìn)一步優(yōu)化性能，提升新機(jī)體驗(yàn)。新機(jī)也被官方稱(chēng)為三星超輕薄折疊旗艦，看來(lái)今年的新折疊屏不斷追求輕薄，甚至是與直板機(jī)…07-03

榮耀Magic V5震撼發(fā)布：輕薄折疊旗艦，搭載6100mAh大電池與驍龍8至尊芯片榮耀Magic V5采用全新AI交互方式，以更輕薄的折疊旗艦形態(tài)與行業(yè)領(lǐng)先的AI智能體實(shí)力，釋放PC級(jí)生產(chǎn)力，開(kāi)啟智能交互體驗(yàn)的全新想象，用科技拓寬一小時(shí)的生命寬度，帶來(lái)一輩子的溫暖陪伴。榮耀正式宣布支持MC…07-03

中國(guó)移動(dòng)新動(dòng)作：九天人工智能科技公司成立，注冊(cè)資本高達(dá)20億07-03

榮耀Magic V5震撼發(fā)布：輕薄折疊旗艦，搭載6100mAh大電池與驍龍8至尊版07-03

榮耀Magic V5深度評(píng)測(cè)：輕薄新紀(jì)錄，AI折疊屏新標(biāo)桿在多設(shè)備聯(lián)動(dòng)上，榮耀MagicV5還可以自家的大屏PC、智能手表、智能耳機(jī)等智能聯(lián)動(dòng)，不僅支持手表解鎖手機(jī)功能以及一鍵鎖定手表，并支持雙向查找，AI體驗(yàn)同步流轉(zhuǎn)，在榮耀手表5 Ultra上，也可以直接喚醒…07-02

榮耀Magic V5震撼發(fā)布：纖薄新紀(jì)錄，滿血配置售價(jià)8999元起7月2日，榮耀推出了新一代旗艦大折疊手機(jī)——榮耀Magic V5，這款手機(jī)不僅再創(chuàng)多項(xiàng)大折疊手機(jī)纖薄世界紀(jì)錄，還具有大折疊滿血配置，并將AI與手機(jī)深度融合，搭載更為智慧化的使用方式。在護(hù)眼方面，此前在榮耀直板…07-02

榮耀Magic V5評(píng)測(cè)：輕薄新巔峰，全能AI折疊屏旗艦重塑標(biāo)準(zhǔn)在多設(shè)備聯(lián)動(dòng)上，榮耀MagicV5還可以自家的大屏PC、智能手表、智能耳機(jī)等智能聯(lián)動(dòng)，不僅支持手表解鎖手機(jī)功能以及一鍵鎖定手表，并支持雙向查找，AI體驗(yàn)同步流轉(zhuǎn)，在榮耀手表5 Ultra上，也可以直接喚醒…07-02

榮耀Magic V5震撼登場(chǎng)：纖薄新紀(jì)錄，滿血配置，售價(jià)8999元起7月2日，榮耀推出了新一代旗艦大折疊手機(jī)——榮耀Magic V5，這款手機(jī)不僅再創(chuàng)多項(xiàng)大折疊手機(jī)纖薄世界紀(jì)錄，還具有大折疊滿血配置，并將AI與手機(jī)深度融合，搭載更為智慧化的使用方式。在護(hù)眼方面，此前在榮耀直板…07-02

榮耀Magic V5深度評(píng)測(cè)：輕薄新標(biāo)桿，AI折疊屏的全面進(jìn)化07-02點(diǎn)擊查看更多 +全站最新

2025云手機(jī)市場(chǎng)風(fēng)向：蜂窩云手機(jī)以高性價(jià)比全場(chǎng)景方案領(lǐng)跑

2025年云手機(jī)推薦：五大品牌性能比拼，性價(jià)比之選揭曉

宇宙信使：揭秘玻璃隕石的奧秘與魅力

2025上半年機(jī)票均價(jià)740元，暑運(yùn)旺季來(lái)臨價(jià)格上揚(yáng)至839元美波音737客機(jī)飛行中襟翼掉落疑似墜入居民區(qū)車(chē)道

美波音737客機(jī)飛行中襟翼掉落疑似墜入居民區(qū)車(chē)道美波音737客機(jī)飛行中襟翼掉落疑似墜入居民區(qū)車(chē)道

美波音737客機(jī)飛行中襟翼掉落疑似墜入居民區(qū)車(chē)道熱門(mén)內(nèi)容

高考志愿填報(bào)熱潮中，夸克“深度搜索”成考生新寵，人均使用4次尋建議
馬斯克宣布Grok 4大模型即將面世，或?qū)榫幊檀蛟?/li>
高考志愿填報(bào)熱潮下，夸克“深度搜索”助力考生，人均使用達(dá)4次
中國(guó)知網(wǎng)CNKI AI：重塑知識(shí)服務(wù)新生態(tài)，四大核心力引領(lǐng)未來(lái)
蘋(píng)果AI「Apple Intelligence」國(guó)行版，終于要來(lái)了嗎？
QQ瀏覽器AI高考通新上線：智能生成高考志愿報(bào)告，助你科學(xué)填報(bào)！
火山引擎PromptPilot：一鍵優(yōu)化指令，解鎖AI大模型新效能
阿里領(lǐng)投硅基流動(dòng)，清華系A(chǔ)I創(chuàng)企再獲數(shù)億融資，DeepSeek流量爆棚后新動(dòng)作？
夸克高考志愿大模型上線，讓每個(gè)考生擁有自己的AI志愿填報(bào)顧問(wèn)！
字節(jié)跳動(dòng)火山引擎發(fā)布豆包1.6與Seedance1.0，AI技術(shù)再升級(jí)成本大降
優(yōu)志愿鴻蒙版上線，AI智能填報(bào)高考志愿，科學(xué)規(guī)劃升學(xué)新路徑
英偉達(dá)攬才：清華“天才少年”朱邦華攜手焦劍濤加盟
淘天集團(tuán)RecGPT大模型上線，電商推薦迎來(lái)個(gè)性化新升級(jí)
斯坦福評(píng)測(cè)：DeepSeek R1醫(yī)療AI大放異彩，成臨床場(chǎng)景新冠軍
《Artificial》今夏開(kāi)機(jī)，揭秘OpenAI 2023年CEO罷免又復(fù)職風(fēng)波

本欄最新

三星Galaxy Z Fold新機(jī)：7月9日震撼發(fā)布，16GB+1TB高配來(lái)襲

榮耀Magic V5震撼發(fā)布：輕薄折疊旗艦，搭載6100mAh大電池與驍龍8至尊芯片

中國(guó)移動(dòng)新動(dòng)作：九天人工智能科技公司成立，注冊(cè)資本高達(dá)20億

榮耀Magic V5震撼發(fā)布：輕薄折疊旗艦，搭載6100mAh大電池與驍龍8至尊版

榮耀Magic V5深度評(píng)測(cè)：輕薄新紀(jì)錄，AI折疊屏新標(biāo)桿

榮耀Magic V5震撼發(fā)布：纖薄新紀(jì)錄，滿血配置售價(jià)8999元起

本文鏈接：http://www.tebozhan.com/showinfo-45-14352-0.html上海交大研究LLM強(qiáng)化學(xué)習(xí)：Llama與Qwen差異及OctoThinker新突破

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：榮耀Magic V5震撼發(fā)布：續(xù)航與輕薄雙贏，友商折疊屏面臨新挑戰(zhàn)

下一篇： MIT新研究：AI寫(xiě)作工具使用或致大腦活躍度下滑

標(biāo)簽：

熱門(mén)焦點(diǎn)

韓國(guó)主權(quán)基金增加對(duì)硅谷初創(chuàng)公司投資押注元宇宙和人工智能

韓國(guó)投資公司(KIC)CEO Seoungho Jin預(yù)計(jì)，該公司在舊金山的辦事處今年將擴(kuò)招人手，探索在硅谷投資科技、健康和綠色項(xiàng)目。規(guī)模高達(dá)2000億美元的韓國(guó)主權(quán)財(cái)富基金—
智能人機(jī)交互技術(shù)的春晚大考

1月初的一個(gè)早晨，京東智能客戶服務(wù)產(chǎn)品部緊急開(kāi)會(huì)，進(jìn)行關(guān)于尚未對(duì)外公布的“X項(xiàng)目”的初討論。1月5日，這個(gè)神秘的X項(xiàng)目對(duì)外公布，京東成為央視2022年春晚獨(dú)家互動(dòng)合
元宇宙是數(shù)字共識(shí)生態(tài)的集成邏輯表達(dá)

作者: 李鳴元宇宙是數(shù)字共識(shí)生態(tài)的集成邏輯表達(dá)，是以區(qū)塊鏈技術(shù)為核心的可信數(shù)字化價(jià)值交互網(wǎng)絡(luò)，是基于Web3.0技術(shù)體系和運(yùn)作機(jī)制支撐下的數(shù)字新生態(tài)。本體論是
2022年去中心化交易所會(huì)崛起嗎？

“在某個(gè)時(shí)候，去中心化衍生品的交易量可能會(huì)超過(guò)去中心化現(xiàn)貨交易所。”DEX 越來(lái)越多地轉(zhuǎn)向第二層解決方案。“數(shù)字化金融市場(chǎng)的概念以及如何沿著以用戶為中心
藝術(shù)創(chuàng)作者能否永久收取版稅？

NFTs正在改變我們理解互聯(lián)網(wǎng)所有權(quán)的方式，社區(qū)管理的所有權(quán)有很多好處，但如果創(chuàng)作者想為他/她的創(chuàng)作獲得永久的收益（版稅），會(huì)發(fā)生什么？這不是一個(gè)容易解決的問(wèn)題，版稅
王老吉啟動(dòng)元宇宙“吉空間”，HTC發(fā)布元宇宙應(yīng)用VIVERSE

今日《元宇宙新鮮事》有：王老吉啟動(dòng)元宇宙“吉空間”；HTC發(fā)布元宇宙應(yīng)用VIVERSE；Meta將在馬德里構(gòu)建一個(gè)元宇宙創(chuàng)新中心；央視網(wǎng)《新聞+》推出系列視頻《聊聊元宇宙
你連元宇宙都不知道嗎？快來(lái)看看這四本元宇宙書(shū)籍吧

前有騰訊、阿里申請(qǐng)商標(biāo)注冊(cè)，后有Facebook宣布改名，若論當(dāng)前互聯(lián)網(wǎng)最火最熱的概念，當(dāng)屬“元宇宙”。“阿里元宇宙”“淘寶元宇宙”“釘釘元宇宙”“QQ元宇宙”“
初探元宇宙

2021年可以被稱(chēng)為“元宇宙”元年。繼2021年3月沙盒游戲平臺(tái)Roblox將“元宇宙”概念放入招股書(shū)中，被稱(chēng)為“元宇宙”第一股后，F(xiàn)acebook更名為Meta, 引發(fā)全球范圍內(nèi)
電影工業(yè)巨頭好萊塢計(jì)劃進(jìn)軍元宇宙，將會(huì)對(duì)行業(yè)帶來(lái)什么影響？

元宇宙聽(tīng)起來(lái)像不像是科幻小說(shuō)中出現(xiàn)的術(shù)語(yǔ)？事實(shí)確實(shí)如此。小說(shuō)家尼爾·斯蒂芬森在1992年的小說(shuō)《雪崩》中首次用這個(gè)詞來(lái)定義了一個(gè)多連接的虛擬宇宙，它能夠模

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁(yè)

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

上海交大研究LLM強(qiáng)化學(xué)習(xí)：Llama與Qwen差異及OctoThinker新突破

韓國(guó)主權(quán)基金增加對(duì)硅谷初創(chuàng)公司投資押注元宇宙和人工智能

智能人機(jī)交互技術(shù)的春晚大考

元宇宙是數(shù)字共識(shí)生態(tài)的集成邏輯表達(dá)

2022年去中心化交易所會(huì)崛起嗎？

藝術(shù)創(chuàng)作者能否永久收取版稅？

王老吉啟動(dòng)元宇宙“吉空間”，HTC發(fā)布元宇宙應(yīng)用VIVERSE

你連元宇宙都不知道嗎？快來(lái)看看這四本元宇宙書(shū)籍吧

初探元宇宙

電影工業(yè)巨頭好萊塢計(jì)劃進(jìn)軍元宇宙，將會(huì)對(duì)行業(yè)帶來(lái)什么影響？

最新推薦

一份全面清單：Web3行業(yè)高薪酬的13種工作

2022開(kāi)年最熱投資賽道竟是虛擬人，背后隱藏了什么商業(yè)價(jià)值？

中國(guó)區(qū)塊鏈產(chǎn)業(yè)生態(tài)地圖報(bào)告（2021）

2021年中國(guó)元宇宙行業(yè)用戶行為分析熱點(diǎn)報(bào)告

Kitten Coup社區(qū)反轉(zhuǎn)Cool Kittens NFT騙局

解決NFT流動(dòng)性問(wèn)題：一文了解Floor DAO

猜你喜歡

熱門(mén)推薦

相關(guān)資訊