AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

蘋果聯合推出 AI 交錯推理方法,Qwen2.5 模型響應速度快 80%、準確率提高 19.3%

來源: 責編: 時間:2025-06-02 11:04:47 13觀看
導讀 5 月 30 日消息,科技媒體 marktechpost 昨日(5 月 29 日)發布博文,報道稱蘋果公司攜手杜克大學,提出交錯推理(Interleaved Reasoning)的全新強化學習(Reinforcement learning,RL)方法,進一步提升大語言模型的推理能力。

5 月 30 日消息,科技媒體 marktechpost 昨日(5 月 29 日)發布博文,報道稱蘋果公司攜手杜克大學,提出交錯推理(Interleaved Reasoning)的全新強化學習(Reinforcement learning,RL)方法,進一步提升大語言模型的推理能力。mpM28資訊網——每日最新資訊28at.com

主流大語言模型在處理多步復雜問題時,常采用“先思考后回答”的長鏈式推理方式。然而,這種方法存在兩大痛點:一是響應時間過長,難以滿足實時交互需求;二是早期推理步驟出錯可能導致最終答案偏差。mpM28資訊網——每日最新資訊28at.com

研究人員指出,與人類在對話中隨時分享部分想法不同,模型往往等到推理全部完成才輸出結果,導致效率不高。mpM28資訊網——每日最新資訊28at.com

蘋果公司攜手杜克大學,研發了交錯推理技術,讓模型在推理過程中交替進行內部思考和輸出中間答案(sub-answer),從而提升速度與實用性。mpM28資訊網——每日最新資訊28at.com

mpM28資訊網——每日最新資訊28at.com

交錯推理基于強化學習(RL)框架,采用特殊的訓練模板,包含 <think> 和 < answer > 標簽,確保模型在達到關鍵推理節點時輸出中間結果。mpM28資訊網——每日最新資訊28at.com

研究團隊設計了基于規則的獎勵機制,包括格式、最終準確率和條件性中間準確率,確保模型注重整體正確性。mpM28資訊網——每日最新資訊28at.com

測試中,交錯推理在 Qwen2.5 模型(1.5B 和 7B 參數)上表現優異,響應速度提升超 80%,準確率提高高達 19.3%。mpM28資訊網——每日最新資訊28at.com

此外,該方法僅在問答(QA)和邏輯數據集上訓練,卻能在 MATH、GPQA、MMLU 等更具挑戰性的基準測試中展現強大泛化能力。mpM28資訊網——每日最新資訊28at.com

研究還嘗試了多種獎勵策略,如全或無、部分積分和時間折扣獎勵,其中條件性和時間折扣獎勵效果最佳,顯著優于傳統方法。mpM28資訊網——每日最新資訊28at.com

附上參考地址mpM28資訊網——每日最新資訊28at.com

Interleaved Reasoning for Large Language Models via Reinforcement LearningmpM28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-13293-0.html蘋果聯合推出 AI 交錯推理方法,Qwen2.5 模型響應速度快 80%、準確率提高 19.3%

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 小米多模態大模型 MiMo-VL 開源,官方稱多方面領先 Qwen2.5-VL-7B

下一篇: Yandex 發布最大音樂推薦開源數據集 Yambda

標簽:
  • 熱門焦點
Top