近期,字節跳動旗下的Seed研究團隊在強化學習領域取得了突破性進展,正式推出了VAPO強化學習訓練框架。這一框架旨在增強大型語言模型在處理復雜、冗長任務時的推理能力,為人工智能的發展開辟了新的道路。
在大型語言模型的強化學習訓練中,價值導向方法一直被視為提升模型性能的關鍵。這類方法通過精確追蹤每個動作對后續回報的影響,展現出了巨大的應用潛力。然而,在應對長鏈式推理任務時,價值模型卻面臨著諸多挑戰。初始化偏差、序列長度差異難以適應,以及獎勵信號稀疏導致的優化過程困難,這些問題都嚴重限制了價值導向方法的應用效果。
為了克服這些挑戰,字節跳動推出了VAPO框架。VAPO,全稱為增強價值的近端政策優化,是在PPO框架的基礎上,通過三項創新技術實現突破的。首先,VAPO構建了一個精細的價值訓練框架,顯著提升了模型對復雜任務的理解能力。其次,引入了長度自適應廣義優勢估計機制,這一機制能夠根據響應長度的不同動態調整參數,從而優化長短序列的訓練效果。最后,VAPO還整合了多項先前的研究技術,形成了一個協同增效的系統。
在實際應用中,VAPO展現出了驚人的效果。在沒有依賴特定監督微調數據的情況下,通過VAPO優化的Qwen2.5-32B模型在AIME24基準測試中取得了顯著進步。其得分從5分飆升至60.4分,不僅超越了DeepSeek R1的47分,還超過了此前業界領先的DAPO方法的50分,僅用了60%的更新步驟就達到了這一成就。
與傳統的Proximal Policy Optimization(PPO)算法相比,VAPO在數學推理能力上有了顯著提升。其訓練曲線更為平滑,優化過程也更加穩定。測試結果顯示,得益于其價值模型提供的細粒度信號,VAPO在長序列任務中表現尤為出色,得分增長迅速。盡管在后期訓練中,熵值的降低可能會對探索產生一定限制,但VAPO通過平衡設計確保了整體的穩定性和可重復性。
VAPO的成功并非偶然,而是源于其綜合優化的設計。消融研究驗證了VAPO中七項技術的有效性。其中,價值預訓練有效防止了模型崩潰,解耦的廣義優勢估計機制支持了長回答的優化,自適應的廣義優勢估計平衡了短回答和長回答的訓練效果。剪裁策略鼓勵了探索,詞級損失增加了長回答的權重,正例語言模型損失提升了6分,分組采樣則貢獻了5分。
這些改進使得VAPO在探索與利用之間找到了最佳的平衡,顯著優于無價值導向的GRPO和DAPO等方法。VAPO不僅提升了數學推理能力,更為大型語言模型在復雜推理任務中的應用提供了新的方向和思路。這一突破性的進展無疑將推動人工智能領域的發展,讓我們共同期待VAPO在未來帶來的更多驚喜。
本文鏈接:http://www.tebozhan.com/showinfo-45-12224-0.html字節跳動VAPO框架:Qwen2.5-32B數學推理能力大幅提升,超越Deepseek-R1
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com