當前位置：首頁 > 元宇宙 > AI

英偉達發布新 RL 范式：受 DeepSeek-R1 啟發，重塑 AI 模型外部工具能力

來源：責編：時間：2025-05-16 09:03:09 64觀看

導讀 5 月 14 日消息，科技媒體 marktechpost 昨日（5 月 13 日）發布博文，報道稱英偉達聯合推出 Nemotron-Research-Tool-N1 系列模型，受 DeepSeek-R1 啟發，采用新型強化學習（RL）范式，強化模型推理能力。大型語言模型（LLMs）通過

5 月 14 日消息，科技媒體 marktechpost 昨日（5 月 13 日）發布博文，報道稱英偉達聯合推出 Nemotron-Research-Tool-N1 系列模型，受 DeepSeek-R1 啟發，采用新型強化學習（RL）范式，強化模型推理能力。

大型語言模型（LLMs）通過外部工具提升性能已成為熱門趨勢，這些工具幫助 LLMs 在搜索引擎、計算器、視覺工具和 Python 解釋器等領域表現出色。但現有研究依賴合成數據集，無法捕捉明確的推理步驟，導致模型僅模仿表面模式，而非真正理解決策過程。

為了提升 LLMs 的工具使用能力，現有方法探索了多種策略。主要包括兩方面：第一，數據集整理和模型優化。研究者創建大規模監督數據集，并應用監督微調（SFT）和直接偏好優化（DPO）強化學習等技術，將 LLMs 與外部工具整合，擴展其功能。

第二，改進推理過程。從傳統的訓練時擴展轉向測試時復雜策略。早期方法依賴步驟級監督和學習獎勵模型，指導推理軌跡。

這些方法雖有效，卻仍受限于合成數據的不足。研究者指出，通過這些策略，LLMs 能處理單輪或多輪工具調用，但缺乏自主推理的深度。

英偉達聯合賓夕法尼亞州立大學、華盛頓大學，組建專業團隊，合作開發 Nemotron-Research-Tool-N1 系列，針對現有方法的局限性，借鑒 DeepSeek-R1 的成功，開發輕量級監督機制，專注于工具調用的結構有效性和功能正確性。

Nemotron-Research-Tool-N1 系列并非依賴顯式標注的推理軌跡，而是采用二元獎勵機制，讓模型自主發展推理策略。

研究者統一處理了 xLAM 和 ToolACE 等數據集（提供單輪和多輪工具調用軌跡）的子集，并設計了輕量級提示模板，指導工具生成過程。

該模板使用 <think>...</think > 標簽明確指示中間推理，并用 < tool_call>...</tool_call > 標簽封裝工具調用，這樣避免了過度擬合特定提示模式。

主干模型為 Qwen2.5-7B / 14B，并測試了 LLaMA 系列變體，以評估泛化能力。在 BFCL 基準測試中，Nemotron-Research-Tool-N1-7B / 14B 模型表現出色，超越了 GPT-4o 等封閉源模型，以及 xLAM-2-70B 和 ToolACE-8B 等專用微調模型。

與相同數據源的 SFT 基準相比，該模型優勢明顯，證明了 RL 方法的有效性。在 API-Bank 基準上，Tool-N1-7B / 14B 的準確率分別比 GPT-4o 高出 4.12% 和 5.03%。這些結果驗證了新方法的潛力，幫助 LLMs 更自主地生成推理策略。研究者總結認為，這標志著從傳統 SFT 向 RL 范式的轉變。

附上參考地址

Nemotron-Research-Tool-N1: Tool-Using Language Models with Reinforced Reasoning

Nemotron-Research-Tool-N1: Exploring Tool-Using Language Models with Reinforced Reasoning

本文鏈接：http://www.tebozhan.com/showinfo-45-12878-0.html英偉達發布新 RL 范式：受 DeepSeek-R1 啟發，重塑 AI 模型外部工具能力

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： AI手機競賽白熱化，品牌如何跨越成本與功能挑戰？

下一篇： Anthropic 即推 AI 新星：Claude Neptune 安全測試收官在即，對戰 GPT-5 和 Gemini Ultra

標簽：

熱門焦點

風口已至，多領域平臺融入社交元素！

在眾多領域平臺中，社交元素都扮演著重要角色，如直播營銷帶貨、線上配對聽歌、游戲局內互動等。隨著元宇宙時代的來臨，社交產品不斷升級，社交元素推動流量變現，多平臺領域融入社交
關于年度熱詞NFT，除了錢，我們還可以聊點啥？

每到年底，社交媒體總少不了年度盤點、年度總結、年度熱詞。如果讓你來總結2021年度熱詞，你會想到什么？柯林斯詞典將年度熱詞頒給了“NFT”，而其理由是：一個縮寫詞的
【申萬宏源】必然的碎片化AI落地，哪種路徑可能勝出？ | 元宇宙Meta洞見

大規模預訓GPT(Generative PreTraining)是OpenAI在2018年提出的模型，大規模預訓練模型（大模型）漸漸成為了AI算法領域的熱點。AI產業鏈：從算力到應用工作流程視角?
中國虛擬數字人如何橫向拓展市場需求，探索發展場景?

通過5G、AI等新技術更新換代，虛擬數字人為諸多下游行業帶來新的發展機會。虛擬數字人技術以其簡化性和精品性持續拓展泛娛樂、金融、教育、政務、醫療、零售等
米哈游推出元宇宙品牌；VR/AR老牌企業當紅齊天完成B輪+融資

今日熱點：蘋果AR/VR頭顯的FaceTime或基于Memojis和SharePlay構建而成；VR/AR老牌企業當紅齊天完成B輪+融資；米哈游推出元宇宙品牌HoYoverse；國產VR射擊游戲《Contra
美國一區塊鏈風投公司宣布成立2.5億美元web3投資新基金

No.1 俄羅斯財政部長: 在俄羅斯禁止比特幣就如禁止互聯網一樣2月16日消息，俄羅斯財政部長安東·西盧安諾夫（Anton Siluanov）表示，在俄羅斯禁止加密貨幣就跟禁止互
區塊鏈產業人才發展報告

工業和信息化部作為工業和信息化行業主管部門，正在著力推進“兩個強國”建設，加快推動以區塊鏈為代表的新興技術與實體經濟深度融合。我國區塊鏈技術和應用想要
2022年去中心化交易所會崛起嗎？

“在某個時候，去中心化衍生品的交易量可能會超過去中心化現貨交易所。”DEX 越來越多地轉向第二層解決方案。“數字化金融市場的概念以及如何沿著以用戶為中心
元宇宙不完全是想出來的，而是實打實做出來的

沈陽強調，元宇宙不完全是想出來的，而是靠實打實做出來的；互聯網向三維化升級是已經明確的大方向，這意味著大量的資金和技術會持續涌入。跨入2022年，元宇宙并沒有“

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

英偉達發布新 RL 范式：受 DeepSeek-R1 啟發，重塑 AI 模型外部工具能力

風口已至，多領域平臺融入社交元素！

關于年度熱詞NFT，除了錢，我們還可以聊點啥？

【申萬宏源】必然的碎片化AI落地，哪種路徑可能勝出？ | 元宇宙Meta洞見

中國虛擬數字人如何橫向拓展市場需求，探索發展場景?

米哈游推出元宇宙品牌；VR/AR老牌企業當紅齊天完成B輪+融資

美國一區塊鏈風投公司宣布成立2.5億美元web3投資新基金

區塊鏈產業人才發展報告

2022年去中心化交易所會崛起嗎？

元宇宙不完全是想出來的，而是實打實做出來的

最新推薦

關于年度熱詞NFT，除了錢，我們還可以聊點啥？

完美世界被元宇宙“拒之門外”

中國銀保監管委提示：謹慎投資，勿做接盤俠

頂流IP“冰墩墩”帶著中國元素NFT進入全球視野

新聞業在元宇宙的現狀和未來

全球十大元宇宙概念游戲

猜你喜歡

熱門推薦

相關資訊