當(dāng)前位置：首頁(yè) > 科技 > 軟件

英偉達(dá)新突破：ProRL方法助力打造頂級(jí)1.5B參數(shù)推理AI模型

來(lái)源：責(zé)編：時(shí)間：2025-06-05 19:06:00 74觀看

導(dǎo)讀近期，科技界傳來(lái)一則引人注目的消息，英偉達(dá)研究團(tuán)隊(duì)在人工智能領(lǐng)域取得了重要突破。據(jù)科技媒體marktechpost報(bào)道，英偉達(dá)不僅推出了一種名為ProRL的強(qiáng)化學(xué)習(xí)方法，還成功開(kāi)發(fā)出了目前全球頂尖的1.5B參數(shù)推理模型——Nemotro

近期，科技界傳來(lái)一則引人注目的消息，英偉達(dá)研究團(tuán)隊(duì)在人工智能領(lǐng)域取得了重要突破。據(jù)科技媒體marktechpost報(bào)道，英偉達(dá)不僅推出了一種名為ProRL的強(qiáng)化學(xué)習(xí)方法，還成功開(kāi)發(fā)出了目前全球頂尖的1.5B參數(shù)推理模型——Nemotron-Research-Reasoning-Qwen-1.5B。

推理模型，作為專門設(shè)計(jì)的人工智能系統(tǒng)，其核心在于通過(guò)復(fù)雜的長(zhǎng)鏈推理過(guò)程，得出最終的答案。這一技術(shù)在近年來(lái)備受關(guān)注，而強(qiáng)化學(xué)習(xí)在這一過(guò)程中的作用更是不可忽視。此前，DeepSeek和Kimi等團(tuán)隊(duì)已采用可驗(yàn)證獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)方法（RLVR），推動(dòng)了GRPO、Mirror Descent和RLOO等算法的發(fā)展。

然而，盡管強(qiáng)化學(xué)習(xí)在理論上被認(rèn)為能夠提升大型語(yǔ)言模型（LLM）的推理能力，但實(shí)際應(yīng)用中卻面臨諸多挑戰(zhàn)。現(xiàn)有研究表明，RLVR在pass@k指標(biāo)上并未顯著優(yōu)于基礎(chǔ)模型，這顯示出推理能力的擴(kuò)展存在局限性。當(dāng)前的研究大多聚焦于數(shù)學(xué)等特定領(lǐng)域，導(dǎo)致模型過(guò)度訓(xùn)練，限制了其探索新領(lǐng)域的潛力。同時(shí)，強(qiáng)化學(xué)習(xí)的訓(xùn)練步數(shù)通常較短，往往僅數(shù)百步，這使得模型難以充分發(fā)展新的能力。

為了克服這些難題，英偉達(dá)研究團(tuán)隊(duì)推出了ProRL方法。他們不僅將強(qiáng)化學(xué)習(xí)的訓(xùn)練時(shí)間延長(zhǎng)至超過(guò)2000步，還大大擴(kuò)展了訓(xùn)練數(shù)據(jù)的范圍，涵蓋了數(shù)學(xué)、編程、STEM、邏輯謎題和指令遵循等多個(gè)領(lǐng)域，共計(jì)13.6萬(wàn)個(gè)樣本。這一舉措旨在提升模型的泛化能力，使其能夠在不同領(lǐng)域都表現(xiàn)出色。

在ProRL方法的基礎(chǔ)上，英偉達(dá)團(tuán)隊(duì)采用了verl框架和改進(jìn)的GRPO方法，成功開(kāi)發(fā)出了Nemotron-Research-Reasoning-Qwen-1.5B模型。這一模型在多項(xiàng)基準(zhǔn)測(cè)試中均表現(xiàn)出色，超越了基礎(chǔ)模型DeepSeek-R1-1.5B，甚至在某些方面優(yōu)于更大的DeepSeek-R1-7B模型。

測(cè)試結(jié)果顯示，Nemotron-Research-Reasoning-Qwen-1.5B模型在數(shù)學(xué)領(lǐng)域?qū)崿F(xiàn)了平均15.7%的提升，編程任務(wù)的pass@1準(zhǔn)確率提高了14.4%，在STEM推理和指令遵循方面分別提升了25.9%和22.0%，邏輯謎題的獎(jiǎng)勵(lì)值更是提升了驚人的54.8%。這一系列數(shù)據(jù)充分展示了該模型在不同領(lǐng)域中的強(qiáng)大推理能力和泛化性能。

英偉達(dá)的這一突破無(wú)疑為人工智能領(lǐng)域帶來(lái)了新的希望和可能。隨著技術(shù)的不斷進(jìn)步和應(yīng)用的不斷拓展，我們有理由相信，未來(lái)將有更多像Nemotron-Research-Reasoning-Qwen-1.5B這樣的優(yōu)秀模型涌現(xiàn)出來(lái)，為人類社會(huì)帶來(lái)更多的便利和價(jià)值。

本文鏈接：http://www.tebozhan.com/showinfo-26-156847-0.html英偉達(dá)新突破：ProRL方法助力打造頂級(jí)1.5B參數(shù)推理AI模型

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：濱特爾國(guó)際水展大放異彩，全場(chǎng)景凈水方案引領(lǐng)好水生活新風(fēng)尚

下一篇：華為Pura 80系列新顏搶先看：釉感工藝與光影紋理演繹美學(xué)新高度

標(biāo)簽：

熱門焦點(diǎn)

官方承諾：K60至尊版將會(huì)首批升級(jí)MIUI 15

全新的MIUI 15今天也有了消息，在官宣了K60至尊版將會(huì)搭載天璣9200+處理器和獨(dú)顯芯片X7的同時(shí)，Redmi給出了官方承諾，K60至尊重大更新首批升級(jí)，會(huì)首批推送MIUI 15。也就是說(shuō)雖然
K60至尊版狂暴引擎2.0加持：超177萬(wàn)跑分?jǐn)孬@性能第一

Redmi的后性能時(shí)代戰(zhàn)略發(fā)布會(huì)今天下午如期舉辦，在本次發(fā)布會(huì)上，Redmi公布了多項(xiàng)關(guān)于和聯(lián)發(fā)科的深度合作，以及新機(jī)K60 Ultra在軟件和硬件方面的特性，例如：“K60 至尊版，雙芯旗艦
從零到英雄：高并發(fā)與性能優(yōu)化的神奇之旅

作者 | 波哥審校 | 重樓作為公司的架構(gòu)師或者程序員，你是否曾經(jīng)為公司的系統(tǒng)在面對(duì)高并發(fā)和性能瓶頸時(shí)感到手足無(wú)措或者焦頭爛額呢？筆者在出道那會(huì)為此是吃盡了苦頭的，不過(guò)也得
華為Mate 60系列用上可變靈動(dòng)島：正式版體驗(yàn)將會(huì)更出色

這段時(shí)間以來(lái)，關(guān)于華為新旗艦的爆料日漸密集。據(jù)此前多方爆料，今年華為將開(kāi)始恢復(fù)一年雙旗艦戰(zhàn)略，除上半年推出的P60系列外，往年下半年的Mate系列也將
國(guó)行版三星Galaxy Z Fold5/Z Flip5發(fā)布售價(jià)7499元起

2023年8月3日，三星電子舉行Galaxy新品中國(guó)發(fā)布會(huì)，正式在國(guó)內(nèi)推出了新一代折疊屏智能手機(jī)三星Galaxy Z Fold5與Galaxy Z Flip5，以及三星Galaxy Tab S9
三星推出Galaxy Tab S9系列平板電腦以及Galaxy Watch6系列智能手表

2023年7月26日，三星電子正式發(fā)布了Galaxy Z Flip5與Galaxy Z Fold5。除此之外，Galaxy Tab S9系列平板電腦以及三星Galaxy Watch6系列智能手表也同期
超級(jí)標(biāo)準(zhǔn)版旗艦！iQOO 11S全球首發(fā)iQOO超算獨(dú)顯芯片

上半年已接近尾聲，截至目前各大品牌旗下的頂級(jí)旗艦都已悉數(shù)亮相，而下半年即將推出的頂級(jí)旗艦已經(jīng)成為了數(shù)碼圈爆料的主流，其中就包括全新的iQOO 11S系
iQOO Neo8系列今日官宣：首發(fā)天璣9200+ 全球安卓最強(qiáng)芯！

在昨日舉行的的聯(lián)發(fā)科新一代旗艦芯片天璣9200+的發(fā)布會(huì)上，iQOO官方也正式宣布，全新的iQOO Neo8系列新品將全球首發(fā)搭載這款當(dāng)前性能最強(qiáng)大的移動(dòng)平臺(tái)
中關(guān)村論壇11月25日開(kāi)幕，15位諾獎(jiǎng)級(jí)大咖將發(fā)表演講

11月18日，記者從2022中關(guān)村論壇新聞發(fā)布會(huì)上獲悉，中關(guān)村論壇將于11月25至30日在京舉行。本屆中關(guān)村論壇由科學(xué)技術(shù)部、國(guó)家發(fā)展改革委、工業(yè)和信息化部、國(guó)務(wù)

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

英偉達(dá)新突破：ProRL方法助力打造頂級(jí)1.5B參數(shù)推理AI模型

官方承諾：K60至尊版將會(huì)首批升級(jí)MIUI 15

K60至尊版狂暴引擎2.0加持：超177萬(wàn)跑分?jǐn)孬@性能第一

從零到英雄：高并發(fā)與性能優(yōu)化的神奇之旅

華為Mate 60系列用上可變靈動(dòng)島：正式版體驗(yàn)將會(huì)更出色

國(guó)行版三星Galaxy Z Fold5/Z Flip5發(fā)布售價(jià)7499元起

三星推出Galaxy Tab S9系列平板電腦以及Galaxy Watch6系列智能手表

超級(jí)標(biāo)準(zhǔn)版旗艦！iQOO 11S全球首發(fā)iQOO超算獨(dú)顯芯片

iQOO Neo8系列今日官宣：首發(fā)天璣9200+ 全球安卓最強(qiáng)芯！

中關(guān)村論壇11月25日開(kāi)幕，15位諾獎(jiǎng)級(jí)大咖將發(fā)表演講

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊