AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

英偉達推出 ProRL 方法:強化學習訓練至 2000 步,打造全球最佳 1.5B 推理 AI 模型

來源: 責編: 時間:2025-06-09 09:36:50 33觀看
導讀 6 月 5 日消息,科技媒體 marktechpost 昨日(6 月 4 日)發布博文,報道稱英偉達推出 ProRL 強化學習方法,并開發出全球最佳的 1.5B 參數推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。背景簡介推理模型是一種專

6 月 5 日消息,科技媒體 marktechpost 昨日(6 月 4 日)發布博文,報道稱英偉達推出 ProRL 強化學習方法,并開發出全球最佳的 1.5B 參數推理模型 Nemotron-Research-Reasoning-Qwen-1.5B。bkc28資訊網——每日最新資訊28at.com

背景簡介bkc28資訊網——每日最新資訊28at.com

推理模型是一種專門的人工智能系統,通過詳細的長鏈推理(Chain of Thought,CoT)過程生成最終答案。bkc28資訊網——每日最新資訊28at.com

強化學習(Reinforcement Learning,RL)在訓練中扮演非常重要的角色,DeepSeek 和 Kimi 等團隊采用可驗證獎勵的強化學習(RLVR)方法,推廣了 GRPO、Mirror Descent 和 RLOO 等算法。bkc28資訊網——每日最新資訊28at.com

然而,研究者仍在爭論強化學習是否真正提升大型語言模型(LLM)的推理能力。現有數據表明,RLVR 在 pass@k 指標上未能顯著優于基礎模型,顯示推理能力擴展受限。bkc28資訊網——每日最新資訊28at.com

此外,當前研究多集中于數學等特定領域,模型常被過度訓練,限制了探索潛力;同時,訓練步數通常僅數百步,未能讓模型充分發展新能力。bkc28資訊網——每日最新資訊28at.com

ProRL 方法的突破與應用bkc28資訊網——每日最新資訊28at.com

英偉達研究團隊為解決上述問題,推出 ProRL 方法,延長強化學習訓練時間至超過 2000 步,并將訓練數據擴展至數學、編程、STEM、邏輯謎題和指令遵循等多個領域,涵蓋 13.6 萬個樣本。bkc28資訊網——每日最新資訊28at.com

bkc28資訊網——每日最新資訊28at.com

他們采用 verl 框架和改進的 GRPO 方法,開發出 Nemotron-Research-Reasoning-Qwen-1.5B 模型。bkc28資訊網——每日最新資訊28at.com

這是全球最佳的 1.5B 參數推理模型,在多項基準測試中超越基礎模型 DeepSeek-R1-1.5B,甚至優于更大的 DeepSeek-R1-7B。bkc28資訊網——每日最新資訊28at.com

bkc28資訊網——每日最新資訊28at.com

測試結果顯示,該模型在數學領域平均提升 15.7%,編程任務 pass@1 準確率提升 14.4%,STEM 推理和指令遵循分別提升 25.9% 和 22.0%,邏輯謎題獎勵值提升 54.8%,展現出強大的泛化能力。bkc28資訊網——每日最新資訊28at.com

附上參考地址bkc28資訊網——每日最新資訊28at.com

ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Modelsbkc28資訊網——每日最新資訊28at.com

huggingfacebkc28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-13540-0.html英偉達推出 ProRL 方法:強化學習訓練至 2000 步,打造全球最佳 1.5B 推理 AI 模型

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 亞馬遜的神秘 Lab126 部門組建新機器人團隊,進軍“物理 AI”

下一篇: 6月8日短劇付費熱度揭秘:大盤破5430萬,《十八歲太奶奶》蟬聯冠軍

標簽:
  • 熱門焦點
  • FMIFAwards獎項即將揭曉!

    來源:X增強現實FMIF Awards未來元宇宙創新獎是由未來元宇宙創新論壇、ARinChina以及多家投資機構、媒體、研究院聯合發起的一項評選活動。旨在推動新技術的融合與集成低成本
  • 刷完一場元宇宙世界杯音樂盛典,我爽了

    作者|劉小土編輯|李春暉你有多久沒完整追過一場音樂盛典了?三刷都不嫌多的那種。按照慣例,每逢年底,直播、長短視頻、音樂平臺便會搶著端上來幾場音樂盛典。擱以
  • 搶先推出“元宇宙”飲料,可口可樂贏麻了

    試圖傍上元宇宙的品牌千千萬,但像可口可樂玩得這么花的,屬實不多。01 可口可樂盯上元宇宙1886年,可口可樂誕生于美國喬治亞州亞特蘭大市,至今已擁有136年的悠久歷
  • 頂流IP“冰墩墩”帶著中國元素NFT進入全球視野

    一場被國際奧委會主席評價堪稱獨具匠心、非凡卓越的2022年北京冬季奧運會,在這個“雙奧之城”經歷了16個令人難忘的精彩日夜,最終圓滿閉幕。讓我們印象深刻的不
  • Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

    雅痞哥不知道這人是誰還上新聞,問了助理,解釋,相當于美版劉歡的地位吧。Snoop Dogg 在 NFT 領域已經有一段時間了,尤其是在最近有消息稱人們在元宇宙中購買房地產
  • 3月份值得關注的5個NFT項目

    2021年,我們見證了一個新的創造者經濟的誕生。它是在區塊鏈上誕生的。自從NFT成為流行文化的中心舞臺以來,有些藝術家們已經成為了NFT的超級明星,在幾個月的時間
  • 元宇宙專題二:GameFi 深度解析,元宇宙內容雛形顯現

    GameFi=Game(游戲)+DEFI(去中心化金融),核心特點為“Play to Earn”。通過技術與去中心化價值觀賦能,GameFi 游戲資產化身為NFT 和代幣上鏈,具備了可驗證性和流通性;開
  • 你連元宇宙都不知道嗎?快來看看這四本元宇宙書籍吧

    前有騰訊、阿里申請商標注冊,后有Facebook宣布改名,若論當前互聯網最火最熱的概念,當屬“元宇宙”。“阿里元宇宙”“淘寶元宇宙”“釘釘元宇宙”“QQ元宇宙”“
  • 爆發在即的Layer2賽道百花齊放,誰將是領跑者?

    還記得幾年前最早我們提起ETH擴容,首先想到就是Layer2,而Layer2里,首先想到的是閃電網絡,狀態通道,Plasma…然后折騰了幾年,發現并沒有什么用,許多項目方和資本也等不
Top