5 月 30 日消息,科技媒體 marktechpost 昨日(5 月 29 日)發布博文,報道稱蘋果公司攜手杜克大學,提出交錯推理(Interleaved Reasoning)的全新強化學習(Reinforcement learning,RL)方法,進一步提升大語言模型的推理能力。
主流大語言模型在處理多步復雜問題時,常采用“先思考后回答”的長鏈式推理方式。然而,這種方法存在兩大痛點:一是響應時間過長,難以滿足實時交互需求;二是早期推理步驟出錯可能導致最終答案偏差。
研究人員指出,與人類在對話中隨時分享部分想法不同,模型往往等到推理全部完成才輸出結果,導致效率不高。
蘋果公司攜手杜克大學,研發了交錯推理技術,讓模型在推理過程中交替進行內部思考和輸出中間答案(sub-answer),從而提升速度與實用性。
交錯推理基于強化學習(RL)框架,采用特殊的訓練模板,包含 <think> 和 < answer > 標簽,確保模型在達到關鍵推理節點時輸出中間結果。
研究團隊設計了基于規則的獎勵機制,包括格式、最終準確率和條件性中間準確率,確保模型注重整體正確性。
測試中,交錯推理在 Qwen2.5 模型(1.5B 和 7B 參數)上表現優異,響應速度提升超 80%,準確率提高高達 19.3%。
此外,該方法僅在問答(QA)和邏輯數據集上訓練,卻能在 MATH、GPQA、MMLU 等更具挑戰性的基準測試中展現強大泛化能力。
研究還嘗試了多種獎勵策略,如全或無、部分積分和時間折扣獎勵,其中條件性和時間折扣獎勵效果最佳,顯著優于傳統方法。
附上參考地址
Interleaved Reasoning for Large Language Models via Reinforcement Learning
本文鏈接:http://www.tebozhan.com/showinfo-45-13293-0.html蘋果聯合推出 AI 交錯推理方法,Qwen2.5 模型響應速度快 80%、準確率提高 19.3%
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com