當前位置：首頁 > 元宇宙 > AI

英偉達推出 ProRL 方法：強化學習訓練至 2000 步，打造全球最佳 1.5B 推理 AI 模型

來源：責編：時間：2025-06-09 09:36:50 33觀看

導讀 6 月 5 日消息，科技媒體 marktechpost 昨日（6 月 4 日）發布博文，報道稱英偉達推出 ProRL 強化學習方法，并開發出全球最佳的 1.5B 參數推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。背景簡介推理模型是一種專

6 月 5 日消息，科技媒體 marktechpost 昨日（6 月 4 日）發布博文，報道稱英偉達推出 ProRL 強化學習方法，并開發出全球最佳的 1.5B 參數推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。

背景簡介

推理模型是一種專門的人工智能系統，通過詳細的長鏈推理（Chain of Thought，CoT）過程生成最終答案。

強化學習（Reinforcement Learning，RL）在訓練中扮演非常重要的角色，DeepSeek 和 Kimi 等團隊采用可驗證獎勵的強化學習（RLVR）方法，推廣了 GRPO、Mirror Descent 和 RLOO 等算法。

然而，研究者仍在爭論強化學習是否真正提升大型語言模型（LLM）的推理能力。現有數據表明，RLVR 在 pass@k 指標上未能顯著優于基礎模型，顯示推理能力擴展受限。

此外，當前研究多集中于數學等特定領域，模型常被過度訓練，限制了探索潛力；同時，訓練步數通常僅數百步，未能讓模型充分發展新能力。

ProRL 方法的突破與應用

英偉達研究團隊為解決上述問題，推出 ProRL 方法，延長強化學習訓練時間至超過 2000 步，并將訓練數據擴展至數學、編程、STEM、邏輯謎題和指令遵循等多個領域，涵蓋 13.6 萬個樣本。

他們采用 verl 框架和改進的 GRPO 方法，開發出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。

這是全球最佳的 1.5B 參數推理模型，在多項基準測試中超越基礎模型 DeepSeek-R1-1.5B，甚至優于更大的 DeepSeek-R1-7B。

測試結果顯示，該模型在數學領域平均提升 15.7%，編程任務 pass@1 準確率提升 14.4%，STEM 推理和指令遵循分別提升 25.9% 和 22.0%，邏輯謎題獎勵值提升 54.8%，展現出強大的泛化能力。

附上參考地址

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models

huggingface

本文鏈接：http://www.tebozhan.com/showinfo-45-13540-0.html英偉達推出 ProRL 方法：強化學習訓練至 2000 步，打造全球最佳 1.5B 推理 AI 模型

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：亞馬遜的神秘 Lab126 部門組建新機器人團隊，進軍“物理 AI”

下一篇： 6月8日短劇付費熱度揭秘：大盤破5430萬，《十八歲太奶奶》蟬聯冠軍

標簽：

熱門焦點

FMIFAwards獎項即將揭曉！

來源：X增強現實FMIF Awards未來元宇宙創新獎是由未來元宇宙創新論壇、ARinChina以及多家投資機構、媒體、研究院聯合發起的一項評選活動。旨在推動新技術的融合與集成低成本
刷完一場元宇宙世界杯音樂盛典，我爽了

作者|劉小土編輯|李春暉你有多久沒完整追過一場音樂盛典了？三刷都不嫌多的那種。按照慣例，每逢年底，直播、長短視頻、音樂平臺便會搶著端上來幾場音樂盛典。擱以
搶先推出“元宇宙”飲料，可口可樂贏麻了

試圖傍上元宇宙的品牌千千萬，但像可口可樂玩得這么花的，屬實不多。01 可口可樂盯上元宇宙1886年，可口可樂誕生于美國喬治亞州亞特蘭大市，至今已擁有136年的悠久歷
頂流IP“冰墩墩”帶著中國元素NFT進入全球視野

一場被國際奧委會主席評價堪稱獨具匠心、非凡卓越的2022年北京冬季奧運會，在這個“雙奧之城”經歷了16個令人難忘的精彩日夜，最終圓滿閉幕。讓我們印象深刻的不
Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

雅痞哥不知道這人是誰還上新聞，問了助理，解釋，相當于美版劉歡的地位吧。Snoop Dogg 在 NFT 領域已經有一段時間了，尤其是在最近有消息稱人們在元宇宙中購買房地產
3月份值得關注的5個NFT項目

2021年，我們見證了一個新的創造者經濟的誕生。它是在區塊鏈上誕生的。自從NFT成為流行文化的中心舞臺以來，有些藝術家們已經成為了NFT的超級明星，在幾個月的時間
元宇宙專題二：GameFi 深度解析，元宇宙內容雛形顯現

GameFi=Game（游戲）+DEFI（去中心化金融），核心特點為“Play to Earn”。通過技術與去中心化價值觀賦能，GameFi 游戲資產化身為NFT 和代幣上鏈，具備了可驗證性和流通性；開
你連元宇宙都不知道嗎？快來看看這四本元宇宙書籍吧

前有騰訊、阿里申請商標注冊，后有Facebook宣布改名，若論當前互聯網最火最熱的概念，當屬“元宇宙”。“阿里元宇宙”“淘寶元宇宙”“釘釘元宇宙”“QQ元宇宙”“
爆發在即的Layer2賽道百花齊放，誰將是領跑者？

還記得幾年前最早我們提起ETH擴容，首先想到就是Layer2，而Layer2里，首先想到的是閃電網絡，狀態通道，Plasma…然后折騰了幾年，發現并沒有什么用，許多項目方和資本也等不

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

英偉達推出 ProRL 方法：強化學習訓練至 2000 步，打造全球最佳 1.5B 推理 AI 模型

FMIFAwards獎項即將揭曉！

刷完一場元宇宙世界杯音樂盛典，我爽了

搶先推出“元宇宙”飲料，可口可樂贏麻了

頂流IP“冰墩墩”帶著中國元素NFT進入全球視野

Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

3月份值得關注的5個NFT項目

元宇宙專題二：GameFi 深度解析，元宇宙內容雛形顯現

你連元宇宙都不知道嗎？快來看看這四本元宇宙書籍吧

爆發在即的Layer2賽道百花齊放，誰將是領跑者？

最新推薦

元媧2.7上線：虛擬人視頻制作速度瘋狂翻倍！

人間誠實周鴻祎：360 All in 大模型的六個解讀

2022年中國元宇宙產業系列研究報告-基礎設施篇（5）

元宇宙是推動NFT發展的初始家園

暴漲100倍的NFT worlds 會是未來元宇宙的雛形嗎？

知識產權可能在元宇宙中“消失”？

猜你喜歡

熱門推薦

相關資訊