在人工智能領(lǐng)域,大型語(yǔ)言模型(LLM)正通過(guò)結(jié)合任務(wù)提示與強(qiáng)化學(xué)習(xí)(RL)技術(shù),在復(fù)雜推理任務(wù)上取得顯著進(jìn)展。Deepseek-R1-Zero等模型直接將強(qiáng)化學(xué)習(xí)應(yīng)用于基礎(chǔ)模型,展現(xiàn)出卓越的推理能力。然而,這一成功并未能在所有基礎(chǔ)模型系列中輕松復(fù)制,尤其是在Llama系列模型上。
OpenAI的GPT-o1、o3以及DeepSeek的R1等模型,在競(jìng)賽級(jí)數(shù)學(xué)問(wèn)題上通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)取得了重大突破,推動(dòng)了對(duì)于小型模型(參數(shù)少于千億)強(qiáng)化學(xué)習(xí)能力的探索。但這些進(jìn)展大多局限于Qwen模型系列,難以在Llama等模型上重現(xiàn)。預(yù)訓(xùn)練流程的缺乏透明度,使得理解預(yù)訓(xùn)練如何影響強(qiáng)化學(xué)習(xí)的擴(kuò)展變得頗具挑戰(zhàn)性。一些非傳統(tǒng)研究發(fā)現(xiàn),一次性提示可以增強(qiáng)Qwen的推理能力,但對(duì)Llama模型效果有限。盡管OpenWebMath、MathPile等項(xiàng)目致力于構(gòu)建高質(zhì)量的數(shù)學(xué)預(yù)訓(xùn)練語(yǔ)料庫(kù),但其規(guī)模依然有限。
上海交通大學(xué)的研究人員針對(duì)Qwen和Llama模型,深入探究了中期訓(xùn)練策略對(duì)強(qiáng)化學(xué)習(xí)動(dòng)態(tài)的影響。他們發(fā)現(xiàn),高質(zhì)量的數(shù)學(xué)語(yǔ)料庫(kù),如MegaMath-Web-Pro,能夠同時(shí)提升基礎(chǔ)模型和強(qiáng)化學(xué)習(xí)的效果。使用問(wèn)答式數(shù)據(jù),特別是包含長(zhǎng)鏈?zhǔn)酵评恚–hain-of-Thought, CoT)的數(shù)據(jù),可以進(jìn)一步增強(qiáng)強(qiáng)化學(xué)習(xí)的效果。然而,長(zhǎng)CoT也會(huì)在強(qiáng)化學(xué)習(xí)訓(xùn)練中引入冗長(zhǎng)性和不穩(wěn)定性。研究還發(fā)現(xiàn),在中期訓(xùn)練中應(yīng)用擴(kuò)展可以提升下游強(qiáng)化學(xué)習(xí)的性能。
基于這些發(fā)現(xiàn),研究人員提出了一種名為“穩(wěn)定-衰減”的兩階段中期訓(xùn)練策略。他們首先使用2000億個(gè)token訓(xùn)練基礎(chǔ)模型,然后在三個(gè)以CoT為中心的分支上使用200億個(gè)token進(jìn)行訓(xùn)練。這一策略成功生成了具有強(qiáng)大強(qiáng)化學(xué)習(xí)兼容性的OctoThinker模型。
在強(qiáng)化學(xué)習(xí)配置和基準(zhǔn)評(píng)估方面,研究人員使用MATH8K數(shù)據(jù)集進(jìn)行訓(xùn)練提示,配置包括全局訓(xùn)練批次大小128、每個(gè)查詢16個(gè)rollout響應(yīng)以及PPO最小批次大小64。實(shí)驗(yàn)在Llama-3.2-3B-Base和Qwen2.5-3B-Base模型上進(jìn)行。在評(píng)估中,基礎(chǔ)語(yǔ)言模型采用少樣本提示,而強(qiáng)化學(xué)習(xí)調(diào)優(yōu)模型則在GSM8K、MATH500、OlympiadBench和AMC23等指標(biāo)任務(wù)上采用零樣本提示。
在強(qiáng)化學(xué)習(xí)訓(xùn)練期間,Qwen模型的響應(yīng)長(zhǎng)度持續(xù)增加并保持在合理范圍內(nèi),而Llama模型則表現(xiàn)出異常行為,平均響應(yīng)長(zhǎng)度飆升至4096個(gè)token。評(píng)估結(jié)果顯示,強(qiáng)化學(xué)習(xí)調(diào)優(yōu)后的Qwen2.5-3B在各個(gè)基準(zhǔn)測(cè)試中均有所提升,而Llama-3.2-3B的提升則微乎其微。
OctoThinker模型在強(qiáng)化學(xué)習(xí)兼容性方面表現(xiàn)優(yōu)異。在13個(gè)數(shù)學(xué)基準(zhǔn)測(cè)試中,每個(gè)OctoThinker分支都比原始Llama基礎(chǔ)模型提升了10%-20%,并且在所有規(guī)模的穩(wěn)定階段模型上都取得了持續(xù)提升。OctoThinker-Zero系列在強(qiáng)化學(xué)習(xí)擴(kuò)展過(guò)程中展現(xiàn)出多樣化的思維行為,其中OctoThinker-Long變體表現(xiàn)尤為出色。在比較三個(gè)3B規(guī)模基礎(chǔ)模型時(shí),OctoThinker-Long-3B的表現(xiàn)優(yōu)于原始Llama-3.2-3B模型,并與以強(qiáng)大推理能力和廣泛預(yù)訓(xùn)練而聞名的Qwen2.5-3B模型達(dá)到相近的性能水平。混合分支和短分支的性能略低,尤其是在更具挑戰(zhàn)性的基準(zhǔn)測(cè)試中。
舉報(bào) 0收藏 0打賞 0評(píng)論 0分享 0 更多>同類(lèi)資訊MIT新研究:AI寫(xiě)作工具使用或致大腦活躍度下滑07-03SciArena平臺(tái)亮相:科研人員親測(cè),大語(yǔ)言模型科學(xué)文獻(xiàn)任務(wù)表現(xiàn)大比拼07-03谷歌發(fā)布Gemini for Education:免費(fèi)AI工具助力全球教育創(chuàng)新與公平07-03榮耀總裁方飛:蘋(píng)果入局折疊屏,是激勵(lì)也是新起點(diǎn)07-03OpenAI堅(jiān)持英偉達(dá)與AMD,暫不全面采用谷歌TPU芯片07-03Crunchyroll新動(dòng)畫(huà)字幕出錯(cuò),疑似AI生成引熱議,觀眾呼吁保證創(chuàng)作質(zhì)量07-03本文鏈接:http://www.tebozhan.com/showinfo-45-14352-0.html上海交大研究LLM強(qiáng)化學(xué)習(xí):Llama與Qwen差異及OctoThinker新突破
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com