AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

英偉達發布新 RL 范式:受 DeepSeek-R1 啟發,重塑 AI 模型外部工具能力

來源: 責編: 時間:2025-05-16 09:03:09 64觀看
導讀 5 月 14 日消息,科技媒體 marktechpost 昨日(5 月 13 日)發布博文,報道稱英偉達聯合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 啟發,采用新型強化學習(RL)范式,強化模型推理能力。大型語言模型(LLMs)通過

5 月 14 日消息,科技媒體 marktechpost 昨日(5 月 13 日)發布博文,報道稱英偉達聯合推出 Nemotron-Research-Tool-N1 系列模型,受 DeepSeek-R1 啟發,采用新型強化學習(RL)范式,強化模型推理能力。YAZ28資訊網——每日最新資訊28at.com

大型語言模型(LLMs)通過外部工具提升性能已成為熱門趨勢,這些工具幫助 LLMs 在搜索引擎、計算器、視覺工具和 Python 解釋器等領域表現出色。但現有研究依賴合成數據集,無法捕捉明確的推理步驟,導致模型僅模仿表面模式,而非真正理解決策過程。YAZ28資訊網——每日最新資訊28at.com

為了提升 LLMs 的工具使用能力,現有方法探索了多種策略。主要包括兩方面:第一,數據集整理和模型優化。研究者創建大規模監督數據集,并應用監督微調(SFT)和直接偏好優化(DPO)強化學習等技術,將 LLMs 與外部工具整合,擴展其功能。YAZ28資訊網——每日最新資訊28at.com

第二,改進推理過程。從傳統的訓練時擴展轉向測試時復雜策略。早期方法依賴步驟級監督和學習獎勵模型,指導推理軌跡。YAZ28資訊網——每日最新資訊28at.com

這些方法雖有效,卻仍受限于合成數據的不足。研究者指出,通過這些策略,LLMs 能處理單輪或多輪工具調用,但缺乏自主推理的深度。YAZ28資訊網——每日最新資訊28at.com

英偉達聯合賓夕法尼亞州立大學、華盛頓大學,組建專業團隊,合作開發 Nemotron-Research-Tool-N1 系列,針對現有方法的局限性,借鑒 DeepSeek-R1 的成功,開發輕量級監督機制,專注于工具調用的結構有效性和功能正確性。YAZ28資訊網——每日最新資訊28at.com

YAZ28資訊網——每日最新資訊28at.com

Nemotron-Research-Tool-N1 系列并非依賴顯式標注的推理軌跡,而是采用二元獎勵機制,讓模型自主發展推理策略。YAZ28資訊網——每日最新資訊28at.com

研究者統一處理了 xLAM 和 ToolACE 等數據集(提供單輪和多輪工具調用軌跡)的子集,并設計了輕量級提示模板,指導工具生成過程。YAZ28資訊網——每日最新資訊28at.com

YAZ28資訊網——每日最新資訊28at.com

該模板使用 <think>...</think > 標簽明確指示中間推理,并用 < tool_call>...</tool_call > 標簽封裝工具調用,這樣避免了過度擬合特定提示模式。YAZ28資訊網——每日最新資訊28at.com

YAZ28資訊網——每日最新資訊28at.com

主干模型為 Qwen2.5-7B / 14B,并測試了 LLaMA 系列變體,以評估泛化能力。在 BFCL 基準測試中,Nemotron-Research-Tool-N1-7B / 14B 模型表現出色,超越了 GPT-4o 等封閉源模型,以及 xLAM-2-70B 和 ToolACE-8B 等專用微調模型。YAZ28資訊網——每日最新資訊28at.com

YAZ28資訊網——每日最新資訊28at.com

與相同數據源的 SFT 基準相比,該模型優勢明顯,證明了 RL 方法的有效性。在 API-Bank 基準上,Tool-N1-7B / 14B 的準確率分別比 GPT-4o 高出 4.12% 和 5.03%。這些結果驗證了新方法的潛力,幫助 LLMs 更自主地生成推理策略。研究者總結認為,這標志著從傳統 SFT 向 RL 范式的轉變。YAZ28資訊網——每日最新資訊28at.com

YAZ28資訊網——每日最新資訊28at.com

YAZ28資訊網——每日最新資訊28at.com

YAZ28資訊網——每日最新資訊28at.com

附上參考地址YAZ28資訊網——每日最新資訊28at.com

Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced ReasoningYAZ28資訊網——每日最新資訊28at.com

Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced ReasoningYAZ28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-12878-0.html英偉達發布新 RL 范式:受 DeepSeek-R1 啟發,重塑 AI 模型外部工具能力

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: AI手機競賽白熱化,品牌如何跨越成本與功能挑戰?

下一篇: Anthropic 即推 AI 新星:Claude Neptune 安全測試收官在即,對戰 GPT-5 和 Gemini Ultra

標簽:
  • 熱門焦點
Top