當前位置：首頁 > 元宇宙 > AI

英偉達開源模型 Nemotron-70B 超越 GPT-4o 和 Claude 3.5，僅次于 OpenAI o1

來源：責編：時間：2024-10-21 11:45:51 83觀看

導讀剛剛，英偉達開源了超強模型 Nemotron-70B，后者一經發布就超越了 GPT-4o 和 Claude 3.5 Sonnet，僅次于 OpenAI o1！AI 社區驚呼：新的開源王者又來了？業內直呼：用 Llama 3.1 訓出小模型吊打 GPT-4o，簡直是神來之筆！一覺醒

剛剛，英偉達開源了超強模型 Nemotron-70B，后者一經發布就超越了 GPT-4o 和 Claude 3.5 Sonnet，僅次于 OpenAI o1！AI 社區驚呼：新的開源王者又來了？業內直呼：用 Llama 3.1 訓出小模型吊打 GPT-4o，簡直是神來之筆！

一覺醒來，新模型 Nemotron-70B 成為僅次 o1 的最強王者！

是的，就在昨晚，英偉達悄無聲息地開源了這個超強大模型。一經發布，它立刻在 AI 社區引發巨大轟動。

在多個基準測試中，它一舉超越多個最先進的 AI 模型，包括 OpenAI 的 GPT-4、GPT-4 Turbo 以及 Anthropic 的 Claude 3.5 Sonnet 等 140 多個開閉源模型。并且僅次于 OpenAI 最新模型 o1。

在即便是在沒有專門提示、額外推理 token 的情況下，Nemotron-70B 也能答對「草莓有幾個 r」經典難題。

業內人士評價：英偉達在 Llama 3.1 的基礎上訓練出不太大的模型，超越了 GPT-4o 和 Claude 3.5 Sonnet，簡直是神來之筆。

網友們紛紛評論：這是一個歷史性的開放權重模型。

目前，模型權重已可在 Hugging Face 上獲取。

地址：https://huggingface.co/ nvidia / Llama-3.1-Nemotron-70B-Instruct-HF

有人已經用兩臺 Macbook 跑起來了。

超越 GPT-4o，英偉達新模型爆火

Nemotron 基礎模型，是基于 Llama-3.1-70B 開發而成。Nemotron-70B 通過人類反饋強化學習完成的訓練，尤其是「強化算法」。

這次訓練過程中，使用了一種新的混合訓練方法，訓練獎勵模型時用了 Bradley-Terry 和 Regression。使用混合訓練方法的關鍵，就是 Nemotron 的訓練數據集，而英偉達也一并開源了。

它基于 Llama-3.1-Nemotron-70B-Reward 提供獎勵信號，并利用 HelpSteer2-Preference 提示來引導模型生成符合人類偏好的答案。

在英偉達團隊一篇預印本論文中，專門介紹了 HelpSteer2-Preference 算法。

論文地址：https://arxiv.org/ pdf/2410.01257

在 LMSYS 大模型競技場中，Arena Hard 評測中，Nemotron-70B 得分 85。

在 AlpacaEval 2 LC 上得分 57.6，在 GPT-4-Turbo MT-Bench 上為 8.98。

能夠擊敗 GPT-4o 的模型，究竟有多強？

各路網友紛紛出題，來考驗 Nemotron-70B 真實水平。

測試開始！

「一步一步認真思考：我目前有兩根香蕉，我昨天吃掉一根，現在還有幾根」？

Nemotron-70B 會將問題所給信息進行分解，然后一步一步推理得出，最終的正確答案是 2 根。

評論區網友表示，來一道上難度的題「列出活到 89 歲的十位名人」。

不過，模型卻把某人的去世日期弄錯了，然而它不是一個推理題。

還有開發者要求它，將整個 entropix 的 jax 模型實現轉換成 Pytorch 格式，而且在零樣本的情況下，70B 模型就完成了。

那么，Nemotron-70B 在 hard prompt 上的表現，是否值得推敲？

在如下測試中，顯然并沒有通過，但確實給出了一個非常有趣的初步輸出。

「考慮一個假設情況，如果月球只有 25 英里遠，而一個人有太空服來保護自己免受太空環境的嚴酷影響，人類步行到月球是否合理？只回答最突出的要點。」

Nemotron-70B 給出的回答是：

不可能，因為需要克服巨大的重力逃逸速度：即使月球只有 25 英里遠，人類仍然需要克服大約 2.4 公里 / 秒（5,376 英里 / 小時）的初始逃逸速度，才能從地球表面到達月球表面。步行速度最快也只有約 5-6 英里 / 小時（8-9.7 公里 / 小時），遠遠不足以達到這個速度，使得步行到月球完全不切實際。

再來一道推理題，讓 Nemotron-70B 與 GPT-4o 一起 PK「薛定諤的貓」實驗變體：

一只死貓被放入一個盒子中，盒子里還有一個核同位素、一瓶毒藥和一個輻射探測器。如果輻射探測器檢測到輻射，它就會釋放毒藥。一天后打開盒子。貓活著的概率是多少？

Nemotron-70B 考慮很有特點的是，從一開始就考慮到貓就是死的，即便放在盒子一天后，仍舊是死的。

而 GPT-4o 并沒有關注初始條件的重要性，而是就盒子里的客觀條件，進行分析得出 50% 的概率。

有網友表示，非常期待看到 Nemotron 70B 在自己的 Ryzen 5 / Radeon 5600 Linux 電腦上跑起來是什么樣子。

在 40GB + 以上的情況下，它簡直就是一頭怪獸。

芯片巨頭不斷開源超強模型

英偉達為何如此熱衷于不斷開源超強模型？

業內人表示，之所以這么做，就開源模型變得如此優秀，就是為了讓所有盈利公司都必須訂購更多芯片，來訓練越來越復雜的模型。無論如何，人們都需要購買硬件，來運行免費模型。

總之，只要英偉達在定制芯片上保持領先，在神經形態芯片未來上投入足夠資金，他們會永遠立于不敗之地。

無代碼初創公司創始人 Andres Kull 心酸地表示，英偉達可以不斷開源超強模型。因為他們既有大量資金資助研究者，同時還在不斷發展壯大開發生態。

而 Meta 可以依托自己的社交媒體，獲得利潤上的資助。

然而大模型初創企業的處境就非常困難了，巨頭們通過種種手段，在商業落地和名氣上都取得了碾壓，但小企業如果無法創造利潤，將很快失去風頭家的資助，迅速倒閉。

而更加可怕的是，英偉達可以以低 1000 倍的成本實現這一點。

如果英偉達真的選擇這么做，將無人能與之匹敵。

現在，英偉達占美國 GDP 的 11.7%。而在互聯網泡沫頂峰時期，思科僅占美國 GDP 的 5.5%最強開源模型是怎樣訓練出來的

在訓練模型的過程中，獎勵模型發揮了很重要的作用，因為它對于調整模型的遵循指令能力至關重要。

主流的獎勵模型方法主要有兩種：Bradley-Terry 和 Regression。

前者起源于統計學中的排名理論，通過最大化被選擇和被拒絕響應之間的獎勵差距，為模型提供了一種直接的基于偏好的反饋。

后者則借鑒了心理學中的評分量表，通過預測特定提示下響應的分數來訓練模型。這就允許模型對響應的質量進行更細節的評估。

對研究者和從業人員來說，決定采用哪種獎勵模型是很重要的。

然而，缺乏證據表明，當數據充分匹配時，哪種方法優于另一種。這也就意味著，現有公共數據集中無法提供充分匹配的數據。

英偉達研究者發現，迄今為止沒有人公開發布過與這兩種方法充分匹配的數據。

為此，他們集中了兩種模型的優點，發布了名為 HelpSteer2-Preference 的高質量數據集。

這樣，Bradley-Terry 模型可以使用此類偏好注釋進行有效訓練，還可以讓注釋者表明為什么更喜歡一種響應而非另一種，從而研究和利用偏好理由。

他們發現，這個數據集效果極好，訓練出的模型性能極強，訓出了 RewardBench 上的一些頂級模型（如 Nemotron-340B-Reward）。

主要貢獻可以總結為以下三點 ——

1. 開源了一個高質量的偏好建模數據集，這應該是包含人類編寫偏好理由的通用領域偏好數據集的第一個開源版本。

2. 利用這些數據，對 Bradley-Terry 風格和 Regression 風格的獎勵模型，以及可以利用偏好理由的模型進行了比較。

3. 得出了結合 Bradley-Terry 和回歸獎勵模型的新穎方法，訓練出的獎勵模型在 RewardBench 上得分為 94.1 分，這是截止 2024.10.1 表現最好的模型。

HelpSteer2-Preference 數據集

數據收集過程中，注釋者都會獲得一個提示和兩個響應。

他們首先在 Likert-5 量表上，從（有用性、正確性、連貫性、復雜性和冗長性）幾個維度上，對每個響應進行注釋。

然后在 7 個偏好選項中進行選擇，每個選項都與一個偏好分數及偏好理由相關聯。

Scale AI 會將每個任務分配給 3-5 個注釋者，以獨立標記每個提示的兩個響應之間的偏好。

嚴格的數據預處理，也保證了數據的質量。

根據 HelpSteer2，研究者會確定每個任務的三個最相似的偏好注釋，取其平均值，并將其四舍五入到最接近的整數，以給出整體偏好。

此外，研究者過濾掉了 10% 的任務，其中三個最相似的注釋分布超過 2。

這樣就避免了對人類注釋者無法自信評估真實偏好的任務進行訓練。

HelpSteer2Preference 中不同回應之間的偏好分布與 HelpSteer 2 中它們的幫助評分差異之間的關系

研究者發現，當使用每種獎勵模型的最佳形式時，Bradley-Terry 類型和回歸類型的獎勵模型彼此競爭。

此外，它們可以相輔相成，訓練一個以僅限幫助性 SteerLM 回歸模型為基礎進行初始化的縮放 Bradley-Terry 模型，在 RewardBench 上整體得分達到 94.1。

截至 2024 年 10 月 1 日，這在 RewardBench 排行榜上排名第一。

RewardBench 上的模型表現

最后，這種獎勵模型被證明在使用 Online RLHF（特別是 REINFORCE 算法）對齊模型以使其遵循指令方面，非常有用。

如表 4 所示，大多數算法對于 Llama-3.1-70B-Instruct 都有所改進。

對齊模型的性能：所有模型均由 Llama-3.1-70B-Instruct 作為基礎模型進行訓練

如表 5 所示，對于「Strawberry 中有幾個 r」這個問題，只有 REINFORCE 能正確回答這個問題。

參考資料：

https://arxiv.org/pdf/2410.01257

https://huggingface.co/nvidia/Llama-3.1-Nemotron-70B-Instruct-HF

本文鏈接：http://www.tebozhan.com/showinfo-45-9183-0.html英偉達開源模型 Nemotron-70B 超越 GPT-4o 和 Claude 3.5，僅次于 OpenAI o1

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：千覺機器人獲數千萬元天使輪融資，高瓴創投領投！

下一篇：人形機器人公司星動紀元完成近 3 億元 Pre-A 輪融資：阿里巴巴聯合領投，聯想追投

標簽：

熱門焦點

這一超級富豪“逆襲”，身價大增4330億

來源：侃見財經互聯網的突圍沒有“終點”。在快節奏的商業環境下，不斷的試錯成了互聯網企業的標配，一年一個風口，一個風口造就一個熱點，但是回頭來看，最終受益的還是身處
沉寂3年，大模型激活小度天貓精靈？

Tech星球（微信ID：tech618）文 | 何煦陽沉寂了許久的智能音箱，在今年大模型橫空出世之后，又再次燃起了新的希望。 2月9日，小度宣布將融合文心一言，打造針對智能設備場景的AI模型&ldq
在數字世界再造世界杯，元宇宙體育正變得越來越豐滿

撰文/ 蔥鮪魚本屆世界杯可能不是最精彩的一屆，卻絕對是看點十足的一屆：后疫情時代的首屆世界杯、耗資2200億美元打造的“史上最貴”世界杯、足壇黃金
字節、騰訊、網易鏖戰元宇宙背后，大廠究竟在爭奪什么？

正當互聯網商業躊躇不前，互聯網大廠為了在存量中的增長擠破頭皮之時，元宇宙的概念被資本點燃。先是Facebook更名Meta正式進軍元宇宙，然后字節跳動收購了一家VR硬
多地釋放積極信號，元宇宙正成為地方爭先競逐的主戰場？

2月21日，2022中國·金魚嘴元宇宙生態賦能大會在南京建鄴區金魚嘴基金街區舉辦，南京建鄴區金魚嘴基金街區宣布計劃出資1億元，支持元宇宙行業發展。同時，會上發布了
Meta正在研發元宇宙語音助手；廣東省462家企業申請元宇宙商標

今日《元宇宙新鮮事》有：扎克伯格透露正在為元宇宙研發語音助手；完美世界聲明稱不會以“元宇宙投資項目”等名義吸收資金。廣東省申請元宇宙商標的企業達462家位
元宇宙畫廊體驗報告：有點頭疼。

2 月 10 日，Hrishi Rajasekar 在舊金山鑄幣廠的沉浸式 NFT 展覽 Verse 觀看增強現實藝術品。“我們現在在虛擬世界中嗎？時間好像變長了” 我問身后排隊的人。我
元宇宙存在的意義和價值

科技公司目前都在猶豫，看誰能在元宇宙上押下更大的賭注。然而，除了巨額的資金投入，到底要怎樣才能獲勝在很大程度上還沒有得到證實。它是否僅僅是對當前數字景觀
GameFi 深度解析，元宇宙內容雛形顯現

GameFi=Game（游戲）+Defi（去中心化金融），核心特點為“Play to Earn”。通過技術與去中心化價值觀賦能，GameFi 游戲資產化身為NFT 和代幣上鏈，具備了可驗證性和流通性；開

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

英偉達開源模型 Nemotron-70B 超越 GPT-4o 和 Claude 3.5，僅次于 OpenAI o1

這一超級富豪“逆襲”，身價大增4330億

沉寂3年，大模型激活小度天貓精靈？

在數字世界再造世界杯，元宇宙體育正變得越來越豐滿

字節、騰訊、網易鏖戰元宇宙背后，大廠究竟在爭奪什么？

多地釋放積極信號，元宇宙正成為地方爭先競逐的主戰場？

Meta正在研發元宇宙語音助手；廣東省462家企業申請元宇宙商標

元宇宙畫廊體驗報告：有點頭疼。

元宇宙存在的意義和價值

GameFi 深度解析，元宇宙內容雛形顯現

最新推薦

AI界地震！美國對OpenAI展開調查！監管風暴來襲！

2022年中國元宇宙產業系列研究報告-基礎設施篇（5）

知識產權可能在元宇宙中“消失”？

頭像類NFTs的統治能持續多久？

利用元宇宙平臺10天收入160萬，風口還是虎口？

從NFT數字收藏，洞察數字音樂版權市場發展趨勢

猜你喜歡

熱門推薦

相關資訊