英偉達近日宣布了一項重大進展,推出了其全新的推理模型套件——OpenReasoning-Nemotron。這一套件內(nèi)嵌了四個精心構(gòu)建的模型,它們均基于Qwen-2.5進行微調(diào),參數(shù)規(guī)模覆蓋1.5B至32B不等,源頭直指擁有6710億參數(shù)的龐然大物——DeepSeek R1 0528大模型。通過“蒸餾”技術(shù),英偉達成功實現(xiàn)了大模型的輕量化,使得這些推理模型能夠在標準游戲電腦上流暢運行,極大地降低了部署門檻,繞開了高昂的GPU與云計算成本。
OpenReasoning-Nemotron的核心競爭力并不在于訓練技術(shù)的突破性創(chuàng)新,而是源于其背后強大的數(shù)據(jù)支撐。英偉達利用NeMo Skills精心打造了500萬個涵蓋數(shù)學、科學與編程領域的解答數(shù)據(jù)集,通過純監(jiān)督學習的方式對模型進行微調(diào)。經(jīng)過嚴格測試,32B模型在數(shù)學競賽AIME24中斬獲89.2分,在HMMT 2月賽中亦獲得73.8分,即便是參數(shù)最少的1.5B模型,也分別取得了55.5分和31.5分的佳績,充分展現(xiàn)了其卓越的推理與解題能力。
英偉達將OpenReasoning-Nemotron定位為科研探索的強大助力,四個模型的完整檢查點將在Hugging Face平臺開放下載,為研究人員提供了強化學習等進一步實驗的堅實基礎,同時也便于他們針對特定任務進行定制優(yōu)化。該模型還支持“GenSelect模式”,即針對每個問題生成多種解答版本,通過篩選最優(yōu)解來進一步提升準確率。在這一模式下,32B模型在多項數(shù)學與編程基準測試中,表現(xiàn)甚至超越了OpenAI的o3-high水平。
尤為英偉達在訓練這些模型時,全程未引入強化學習,僅采用監(jiān)督微調(diào)的方式,為社區(qū)提供了一個干凈且技術(shù)前沿的起點,為未來的強化學習相關研究開辟了廣闊空間。對于擁有高性能游戲GPU的玩家及個人開發(fā)者而言,這套模型無疑是一個巨大的福音,使他們能夠在本地運行接近業(yè)界最先進水平的推理模型,極大地推動了推理技術(shù)的發(fā)展與普及。
本文鏈接:http://www.tebozhan.com/showinfo-26-171575-0.html英偉達發(fā)布OpenReasoning-Nemotron套件:輕量級推理模型助力科研探索
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com