AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁(yè) > 元宇宙 > AI

上海交大研究LLM強(qiáng)化學(xué)習(xí):Llama與Qwen差異及OctoThinker新突破

來(lái)源: 責(zé)編: 時(shí)間:2025-07-04 12:16:41 42觀看
導(dǎo)讀在人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)正通過(guò)結(jié)合任務(wù)提示與強(qiáng)化學(xué)習(xí)(RL)技術(shù),在復(fù)雜推理任務(wù)上取得顯著進(jìn)展。Deepseek-R1-Zero等模型直接將強(qiáng)化學(xué)習(xí)應(yīng)用于基礎(chǔ)模型,展現(xiàn)出卓越的推理能力。然而,這一成功并未能在所有基礎(chǔ)模型系

在人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)正通過(guò)結(jié)合任務(wù)提示與強(qiáng)化學(xué)習(xí)(RL)技術(shù),在復(fù)雜推理任務(wù)上取得顯著進(jìn)展。Deepseek-R1-Zero等模型直接將強(qiáng)化學(xué)習(xí)應(yīng)用于基礎(chǔ)模型,展現(xiàn)出卓越的推理能力。然而,這一成功并未能在所有基礎(chǔ)模型系列中輕松復(fù)制,尤其是在Llama系列模型上。0xy28資訊網(wǎng)——每日最新資訊28at.com

OpenAI的GPT-o1、o3以及DeepSeek的R1等模型,在競(jìng)賽級(jí)數(shù)學(xué)問(wèn)題上通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)取得了重大突破,推動(dòng)了對(duì)于小型模型(參數(shù)少于千億)強(qiáng)化學(xué)習(xí)能力的探索。但這些進(jìn)展大多局限于Qwen模型系列,難以在Llama等模型上重現(xiàn)。預(yù)訓(xùn)練流程的缺乏透明度,使得理解預(yù)訓(xùn)練如何影響強(qiáng)化學(xué)習(xí)的擴(kuò)展變得頗具挑戰(zhàn)性。一些非傳統(tǒng)研究發(fā)現(xiàn),一次性提示可以增強(qiáng)Qwen的推理能力,但對(duì)Llama模型效果有限。盡管OpenWebMath、MathPile等項(xiàng)目致力于構(gòu)建高質(zhì)量的數(shù)學(xué)預(yù)訓(xùn)練語(yǔ)料庫(kù),但其規(guī)模依然有限。0xy28資訊網(wǎng)——每日最新資訊28at.com

上海交通大學(xué)的研究人員針對(duì)Qwen和Llama模型,深入探究了中期訓(xùn)練策略對(duì)強(qiáng)化學(xué)習(xí)動(dòng)態(tài)的影響。他們發(fā)現(xiàn),高質(zhì)量的數(shù)學(xué)語(yǔ)料庫(kù),如MegaMath-Web-Pro,能夠同時(shí)提升基礎(chǔ)模型和強(qiáng)化學(xué)習(xí)的效果。使用問(wèn)答式數(shù)據(jù),特別是包含長(zhǎng)鏈?zhǔn)酵评恚–hain-of-Thought, CoT)的數(shù)據(jù),可以進(jìn)一步增強(qiáng)強(qiáng)化學(xué)習(xí)的效果。然而,長(zhǎng)CoT也會(huì)在強(qiáng)化學(xué)習(xí)訓(xùn)練中引入冗長(zhǎng)性和不穩(wěn)定性。研究還發(fā)現(xiàn),在中期訓(xùn)練中應(yīng)用擴(kuò)展可以提升下游強(qiáng)化學(xué)習(xí)的性能。0xy28資訊網(wǎng)——每日最新資訊28at.com

基于這些發(fā)現(xiàn),研究人員提出了一種名為“穩(wěn)定-衰減”的兩階段中期訓(xùn)練策略。他們首先使用2000億個(gè)token訓(xùn)練基礎(chǔ)模型,然后在三個(gè)以CoT為中心的分支上使用200億個(gè)token進(jìn)行訓(xùn)練。這一策略成功生成了具有強(qiáng)大強(qiáng)化學(xué)習(xí)兼容性的OctoThinker模型。0xy28資訊網(wǎng)——每日最新資訊28at.com

在強(qiáng)化學(xué)習(xí)配置和基準(zhǔn)評(píng)估方面,研究人員使用MATH8K數(shù)據(jù)集進(jìn)行訓(xùn)練提示,配置包括全局訓(xùn)練批次大小128、每個(gè)查詢16個(gè)rollout響應(yīng)以及PPO最小批次大小64。實(shí)驗(yàn)在Llama-3.2-3B-Base和Qwen2.5-3B-Base模型上進(jìn)行。在評(píng)估中,基礎(chǔ)語(yǔ)言模型采用少樣本提示,而強(qiáng)化學(xué)習(xí)調(diào)優(yōu)模型則在GSM8K、MATH500、OlympiadBench和AMC23等指標(biāo)任務(wù)上采用零樣本提示。0xy28資訊網(wǎng)——每日最新資訊28at.com

在強(qiáng)化學(xué)習(xí)訓(xùn)練期間,Qwen模型的響應(yīng)長(zhǎng)度持續(xù)增加并保持在合理范圍內(nèi),而Llama模型則表現(xiàn)出異常行為,平均響應(yīng)長(zhǎng)度飆升至4096個(gè)token。評(píng)估結(jié)果顯示,強(qiáng)化學(xué)習(xí)調(diào)優(yōu)后的Qwen2.5-3B在各個(gè)基準(zhǔn)測(cè)試中均有所提升,而Llama-3.2-3B的提升則微乎其微。0xy28資訊網(wǎng)——每日最新資訊28at.com

OctoThinker模型在強(qiáng)化學(xué)習(xí)兼容性方面表現(xiàn)優(yōu)異。在13個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試中,每個(gè)OctoThinker分支都比原始Llama基礎(chǔ)模型提升了10%-20%,并且在所有規(guī)模的穩(wěn)定階段模型上都取得了持續(xù)提升。OctoThinker-Zero系列在強(qiáng)化學(xué)習(xí)擴(kuò)展過(guò)程中展現(xiàn)出多樣化的思維行為,其中OctoThinker-Long變體表現(xiàn)尤為出色。在比較三個(gè)3B規(guī)模基礎(chǔ)模型時(shí),OctoThinker-Long-3B的表現(xiàn)優(yōu)于原始Llama-3.2-3B模型,并與以強(qiáng)大推理能力和廣泛預(yù)訓(xùn)練而聞名的Qwen2.5-3B模型達(dá)到相近的性能水平。混合分支和短分支的性能略低,尤其是在更具挑戰(zhàn)性的基準(zhǔn)測(cè)試中。0xy28資訊網(wǎng)——每日最新資訊28at.com

舉報(bào) 0收藏 0打賞 0評(píng)論 0  更多>同類(lèi)資訊MIT新研究:AI寫(xiě)作工具使用或致大腦活躍度下滑07-03SciArena平臺(tái)亮相:科研人員親測(cè),大語(yǔ)言模型科學(xué)文獻(xiàn)任務(wù)表現(xiàn)大比拼07-03谷歌發(fā)布Gemini for Education:免費(fèi)AI工具助力全球教育創(chuàng)新與公平07-03榮耀總裁方飛:蘋(píng)果入局折疊屏,是激勵(lì)也是新起點(diǎn)07-03OpenAI堅(jiān)持英偉達(dá)與AMD,暫不全面采用谷歌TPU芯片07-03Crunchyroll新動(dòng)畫(huà)字幕出錯(cuò),疑似AI生成引熱議,觀眾呼吁保證創(chuàng)作質(zhì)量07-03三星Galaxy Z Fold新機(jī):7月9日震撼發(fā)布,16GB+1TB高配來(lái)襲現(xiàn)在的手游和應(yīng)用不斷升級(jí),對(duì)配置的要求越來(lái)越高,所以不少品牌推出自研芯片、性能引擎、算法等方面,進(jìn)一步優(yōu)化性能,提升新機(jī)體驗(yàn)。新機(jī)也被官方稱(chēng)為三星超輕薄折疊旗艦,看來(lái)今年的新折疊屏不斷追求輕薄,甚至是與直板機(jī)…07-03榮耀Magic V5震撼發(fā)布:輕薄折疊旗艦,搭載6100mAh大電池與驍龍8至尊芯片榮耀Magic V5采用全新AI交互方式,以更輕薄的折疊旗艦形態(tài)與行業(yè)領(lǐng)先的AI智能體實(shí)力,釋放PC級(jí)生產(chǎn)力,開(kāi)啟智能交互體驗(yàn)的全新想象,用科技拓寬一小時(shí)的生命寬度,帶來(lái)一輩子的溫暖陪伴。榮耀正式宣布支持MC…07-03中國(guó)移動(dòng)新動(dòng)作:九天人工智能科技公司成立,注冊(cè)資本高達(dá)20億07-03榮耀Magic V5震撼發(fā)布:輕薄折疊旗艦,搭載6100mAh大電池與驍龍8至尊版07-03榮耀Magic V5深度評(píng)測(cè):輕薄新紀(jì)錄,AI折疊屏新標(biāo)桿在多設(shè)備聯(lián)動(dòng)上,榮耀MagicV5還可以自家的大屏PC、智能手表、智能耳機(jī)等智能聯(lián)動(dòng),不僅支持手表解鎖手機(jī)功能以及一鍵鎖定手表,并支持雙向查找,AI體驗(yàn)同步流轉(zhuǎn),在榮耀手表5 Ultra上,也可以直接喚醒…07-02榮耀Magic V5震撼發(fā)布:纖薄新紀(jì)錄,滿血配置售價(jià)8999元起7月2日,榮耀推出了新一代旗艦大折疊手機(jī)——榮耀Magic V5,這款手機(jī)不僅再創(chuàng)多項(xiàng)大折疊手機(jī)纖薄世界紀(jì)錄,還具有大折疊滿血配置,并將AI與手機(jī)深度融合,搭載更為智慧化的使用方式。在護(hù)眼方面,此前在榮耀直板…07-02榮耀Magic V5評(píng)測(cè):輕薄新巔峰,全能AI折疊屏旗艦重塑標(biāo)準(zhǔn)在多設(shè)備聯(lián)動(dòng)上,榮耀MagicV5還可以自家的大屏PC、智能手表、智能耳機(jī)等智能聯(lián)動(dòng),不僅支持手表解鎖手機(jī)功能以及一鍵鎖定手表,并支持雙向查找,AI體驗(yàn)同步流轉(zhuǎn),在榮耀手表5 Ultra上,也可以直接喚醒…07-02榮耀Magic V5震撼登場(chǎng):纖薄新紀(jì)錄,滿血配置,售價(jià)8999元起7月2日,榮耀推出了新一代旗艦大折疊手機(jī)——榮耀Magic V5,這款手機(jī)不僅再創(chuàng)多項(xiàng)大折疊手機(jī)纖薄世界紀(jì)錄,還具有大折疊滿血配置,并將AI與手機(jī)深度融合,搭載更為智慧化的使用方式。在護(hù)眼方面,此前在榮耀直板…07-02榮耀Magic V5深度評(píng)測(cè):輕薄新標(biāo)桿,AI折疊屏的全面進(jìn)化07-02點(diǎn)擊查看更多 +全站最新2025云手機(jī)市場(chǎng)風(fēng)向:蜂窩云手機(jī)以高性價(jià)比全場(chǎng)景方案領(lǐng)跑2025云手機(jī)市場(chǎng)風(fēng)向:蜂窩云手機(jī)以高性價(jià)比全場(chǎng)景方案領(lǐng)跑2025年云手機(jī)推薦:五大品牌性能比拼,性價(jià)比之選揭曉2025年云手機(jī)推薦:五大品牌性能比拼,性價(jià)比之選揭曉宇宙信使:揭秘玻璃隕石的奧秘與魅力宇宙信使:揭秘玻璃隕石的奧秘與魅力2025上半年機(jī)票均價(jià)740元,暑運(yùn)旺季來(lái)臨價(jià)格上揚(yáng)至839元2025上半年機(jī)票均價(jià)740元,暑運(yùn)旺季來(lái)臨價(jià)格上揚(yáng)至839元美波音737客機(jī)飛行中襟翼掉落 疑似墜入居民區(qū)車(chē)道美波音737客機(jī)飛行中襟翼掉落 疑似墜入居民區(qū)車(chē)道美波音737客機(jī)飛行中襟翼掉落 疑似墜入居民區(qū)車(chē)道美波音737客機(jī)飛行中襟翼掉落 疑似墜入居民區(qū)車(chē)道熱門(mén)內(nèi)容
  • 高考志愿填報(bào)熱潮中,夸克“深度搜索”成考生新寵,人均使用4次尋建議
  • 馬斯克宣布Grok 4大模型即將面世,或?qū)榫幊檀蛟?/li>
  • 高考志愿填報(bào)熱潮下,夸克“深度搜索”助力考生,人均使用達(dá)4次
  • 中國(guó)知網(wǎng)CNKI AI:重塑知識(shí)服務(wù)新生態(tài),四大核心力引領(lǐng)未來(lái)
  • 蘋(píng)果AI「Apple Intelligence」國(guó)行版,終于要來(lái)了嗎?
  • QQ瀏覽器AI高考通新上線:智能生成高考志愿報(bào)告,助你科學(xué)填報(bào)!
  • 火山引擎PromptPilot:一鍵優(yōu)化指令,解鎖AI大模型新效能
  • 阿里領(lǐng)投硅基流動(dòng),清華系A(chǔ)I創(chuàng)企再獲數(shù)億融資,DeepSeek流量爆棚后新動(dòng)作?
  • 夸克高考志愿大模型上線,讓每個(gè)考生擁有自己的AI志愿填報(bào)顧問(wèn)!
  • 字節(jié)跳動(dòng)火山引擎發(fā)布豆包1.6與Seedance1.0,AI技術(shù)再升級(jí)成本大降
  • 優(yōu)志愿鴻蒙版上線,AI智能填報(bào)高考志愿,科學(xué)規(guī)劃升學(xué)新路徑
  • 英偉達(dá)攬才:清華“天才少年”朱邦華攜手焦劍濤加盟
  • 淘天集團(tuán)RecGPT大模型上線,電商推薦迎來(lái)個(gè)性化新升級(jí)
  • 斯坦福評(píng)測(cè):DeepSeek R1醫(yī)療AI大放異彩,成臨床場(chǎng)景新冠軍
  • 《Artificial》今夏開(kāi)機(jī),揭秘OpenAI 2023年CEO罷免又復(fù)職風(fēng)波
本欄最新三星Galaxy Z Fold新機(jī):7月9日震撼發(fā)布,16GB+1TB高配來(lái)襲三星Galaxy Z Fold新機(jī):7月9日震撼發(fā)布,16GB+1TB高配來(lái)襲榮耀Magic V5震撼發(fā)布:輕薄折疊旗艦,搭載6100mAh大電池與驍龍8至尊芯片榮耀Magic V5震撼發(fā)布:輕薄折疊旗艦,搭載6100mAh大電池與驍龍8至尊芯片中國(guó)移動(dòng)新動(dòng)作:九天人工智能科技公司成立,注冊(cè)資本高達(dá)20億中國(guó)移動(dòng)新動(dòng)作:九天人工智能科技公司成立,注冊(cè)資本高達(dá)20億榮耀Magic V5震撼發(fā)布:輕薄折疊旗艦,搭載6100mAh大電池與驍龍8至尊版榮耀Magic V5震撼發(fā)布:輕薄折疊旗艦,搭載6100mAh大電池與驍龍8至尊版榮耀Magic V5深度評(píng)測(cè):輕薄新紀(jì)錄,AI折疊屏新標(biāo)桿榮耀Magic V5深度評(píng)測(cè):輕薄新紀(jì)錄,AI折疊屏新標(biāo)桿榮耀Magic V5震撼發(fā)布:纖薄新紀(jì)錄,滿血配置售價(jià)8999元起榮耀Magic V5震撼發(fā)布:纖薄新紀(jì)錄,滿血配置售價(jià)8999元起

本文鏈接:http://www.tebozhan.com/showinfo-45-14352-0.html上海交大研究LLM強(qiáng)化學(xué)習(xí):Llama與Qwen差異及OctoThinker新突破

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 榮耀Magic V5震撼發(fā)布:續(xù)航與輕薄雙贏,友商折疊屏面臨新挑戰(zhàn)

下一篇: MIT新研究:AI寫(xiě)作工具使用或致大腦活躍度下滑

標(biāo)簽:
  • 熱門(mén)焦點(diǎn)
Top