AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

英偉達開源 3400 億巨獸:98% 合成數據訓出最強開源通用模型,性能對標 GPT-4o

來源: 責編: 時間:2024-06-18 16:57:01 129觀看
導讀 【新智元導讀】剛剛,英偉達全新發布的開源模型 Nemotron-4 340B,有可能徹底改變訓練 LLM 的方式!從此,或許各行各業都不再需要昂貴的真實世界數據集了。而且,Nemotron-4 340B 直接超越了 Mixtral 8x22B、Claude so

【新智元導讀】剛剛,英偉達全新發布的開源模型 Nemotron-4 340B,有可能徹底改變訓練 LLM 的方式!從此,或許各行各業都不再需要昂貴的真實世界數據集了。而且,Nemotron-4 340B 直接超越了 Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,甚至可以和 GPT-4 掰手腕!73L28資訊網——每日最新資訊28at.com

就在剛剛,英偉達再一次證明了自己的 AI 創新領域的領導地位。73L28資訊網——每日最新資訊28at.com

它全新發布的 Nemotron-4 340B,是一系列具有開創意義的開源模型,有可能徹底改變訓練 LLM 的合成數據生成方式!73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

論文地址:https://d1qx31qr3h6wln.cloudfront.net/publications/Nemotron_4_340B_8T_0.pdf73L28資訊網——每日最新資訊28at.com

這一突破性進展,標志著 AI 行業的一個重要里程碑 ——73L28資訊網——每日最新資訊28at.com

從此,各行各業都無需依賴大量昂貴的真實世界數據集了,用合成數據,就可以創建性能強大的特定領域大語言模型!73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

現在,Nemotron-4 340B 已經取得了輝煌戰績,直接超越了 Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,甚至可以和 GPT-4 一較高下!73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

▲其實,以前這個模型就曾登上大模型競技場 LMSys Chatbot Arena,當時它的別名是「june-chatbot」

具體來說,Nemotron-4 340B 包括基礎模型 Base、指令模型 Instruct 和獎勵模型 Reward,并構建了一個高質量合成數據生成的完整流程。73L28資訊網——每日最新資訊28at.com

模型支持 4K 上下文窗口、50 多種自然語言和 40 多種編程語言,訓練數據截止到 2023 年 6 月。73L28資訊網——每日最新資訊28at.com

訓練數據方面,英偉達采用了高達 9 萬億個 token。其中,8 萬億用于預訓練,1 萬億用于繼續訓練以提高質量。73L28資訊網——每日最新資訊28at.com

值得一提的是,指令模型的訓練是在 98% 的合成數據上完成的。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

結果顯示,Nemotron-4-340B-Base 在常識推理任務,如 ARC-Challenge、MMLU 和 BigBench Hard 基準測試中,可以和 Llama-3 70B、Mixtral 8x22B 和 Qwen-2 72B 模型媲美。73L28資訊網——每日最新資訊28at.com

而 Nemotron-4-340B-Instruct,在指令跟隨和聊天能力方面也超越了相應的指令模型。73L28資訊網——每日最新資訊28at.com

Nemotron-4-340B-Reward 在發表時,在 RewardBench 上實現了最高準確性,甚至超過了 GPT-4o-0513 和 Gemini 1.5 Pro-0514 這樣的專有模型。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

在 BF16 精度下,模型的推理需要 8 塊 H200,或 16 塊 H100 / A100 80GB。如果是在 FP8 精度下,則只需 8 塊 H100。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

除此之外,Nemotron-4 340B 還有一個非常顯著的特點 —— 對商用十分友好的許可。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

高級深度學習研究工程師 Somshubra Majumdar 對此表示大贊:「是的,你可以用它生成你想要的所有數據」73L28資訊網——每日最新資訊28at.com

無與倫比的合成數據生成

LLM 無法獲得大規模、多樣化標注數據集,怎么破?73L28資訊網——每日最新資訊28at.com

Nemotron-4 340B 指令模型,可以幫助開發者生成合成訓練數據。73L28資訊網——每日最新資訊28at.com

這些多樣化的合成數據,模仿了真實世界的數據特征,因而數據質量明顯提升,從而提升了各領域定制 LLM 的性能和穩定性。73L28資訊網——每日最新資訊28at.com

而且,為了進一步提高 AI 生成數據的質量,開發者還可以用 Nemotron-4 340B 獎勵模型,來篩選高質量的響應。73L28資訊網——每日最新資訊28at.com

它會根據有用性、正確性、一致性、復雜性和冗長性這 5 個屬性,對響應評分。73L28資訊網——每日最新資訊28at.com

另外,研究者可以使用自己的專用數據,再結合 HelpSteer2 數據集,定制 Nemotron-4 340B 基礎模型,以創建自己的指令或獎勵模型。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

用 NeMo 微調,用 TensorRT-LLM 優化推理

利用開源的 NVIDIA NeMo 和 NVIDIA TensorRT-LLM,開發者可以優化指令模型和獎勵模型的效率,從而生成合成數據,并對響應進行評分。73L28資訊網——每日最新資訊28at.com

所有 Nemotron-4 340B 模型都利用張量并行性經過 TensorRT-LLM 優化,這種模型并行性可以將單個權重矩陣分割到多個 GPU 和服務器上,從而實現大規模高效推理。73L28資訊網——每日最新資訊28at.com

其中,基礎模型可以使用 NeMo 框架進行定制,以適應特定的用例或領域。廣泛的預訓練數據使得我們可以對它進行微調,并且為特定的下游任務提供更準確的輸出。73L28資訊網——每日最新資訊28at.com

通過 NeMo 框架,英偉達提供了多種定制方法,包括監督微調和參數高效微調方法,如低秩適應(LoRA)。73L28資訊網——每日最新資訊28at.com

為了提高模型質量,開發者可以使用 NeMo Aligner 和由 Nemotron-4 340B 獎勵模型標注的數據集來對齊模型。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

在各行業的潛在影響:從醫療到金融及其他領域

顯然,Nemotron-4 340B 對各行業的潛在影響是巨大的。73L28資訊網——每日最新資訊28at.com

在醫療領域,如果能生成高質量合成數據,可能會帶來藥物發現、個性化醫療和醫學影像方面的突破。73L28資訊網——每日最新資訊28at.com

在金融領域,基于合成數據訓練的定制大語言模型,則可能會徹底改變欺詐檢測、風險評估和客戶服務。73L28資訊網——每日最新資訊28at.com

在制造業和零售業方面,特定領域的 LLM 可以實現預測性維護、供應鏈優化和個性化客戶體驗。73L28資訊網——每日最新資訊28at.com

不過,Nemotron-4 340B 的發布,也提出了一些隱憂,比如數據隱私和安全怎樣保證?73L28資訊網——每日最新資訊28at.com

隨著以后合成數據的普及,企業是否有防護措施來保護敏感信息,并防止濫用?73L28資訊網——每日最新資訊28at.com

如果用合成數據訓練 AI 模型,是否會引發倫理問題,比如數據中的偏見和不準確可能引發意料外的后果?73L28資訊網——每日最新資訊28at.com

但至少在目前,越來越多跡象表明,只有合成數據才是未來。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

預訓練

下面,我們就來看看,英偉達都提出了哪些創新的方法:73L28資訊網——每日最新資訊28at.com

數據

預訓練數據是基于三種不同類型的混合,共有 9T token。其中,前 8T 用于正式預訓練階段,最后 1T 用于繼續預訓練階段。73L28資訊網——每日最新資訊28at.com

英語自然語言(70%):由不同來源和領域的精選文檔組成,包括網頁文檔、新聞文章、科學論文、書籍等。73L28資訊網——每日最新資訊28at.com

多語種自然語言(15%):包含 53 種自然語言,由單語語料庫和平行語料庫中的文檔構成。73L28資訊網——每日最新資訊28at.com

代碼(15%):包含 43 種編程語言。73L28資訊網——每日最新資訊28at.com

架構

與 Nemotron-4-15B-Base 類似,Nemotron-4-340B-Base 基于的也是僅解碼器 Transformer 架構。73L28資訊網——每日最新資訊28at.com

具體來說,模型使用因果注意力掩碼來確保序列的一致性,并采用旋轉位置嵌入(RoPE)、SentencePiece 分詞器、分組查詢注意力(GQA),以及在 MLP 層中使用平方 ReLU 激活。73L28資訊網——每日最新資訊28at.com

此外,模型沒有偏置項,丟棄率為零,輸入輸出嵌入不綁定。73L28資訊網——每日最新資訊28at.com

模型超參數如表 1 所示,有 94 億個嵌入參數和 3316 億個非嵌入參數。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

訓練

Nemotron-4-340B-Base 使用 768 個 DGX H100 節點進行訓練,每個節點包含 8 個基于 NVIDIA Hopper 架構的 H100 80GB SXM5 GPU。73L28資訊網——每日最新資訊28at.com

每個 H100 GPU 在進行 16 位浮點(BF16)運算時,峰值吞吐量為 989 teraFLOP / s(不含稀疏運算)。73L28資訊網——每日最新資訊28at.com

英偉達采用了 8 路張量并行、12 路交錯流水線并行和數據并行相結合的方法,并使用了分布式優化器,將優化器狀態分片到數據并行副本上,以減少訓練的內存占用。73L28資訊網——每日最新資訊28at.com

表 2 總結了批大小增加的 3 個階段,包括每次迭代時間,以及 GPU 利用率(MFU)等,其中 100% 是理論峰值。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

評估

在這一部分,我們報告了 Nemotron-4-340B-Base 的評估結果。我們將該模型73L28資訊網——每日最新資訊28at.com

表 3 是 Nemotron-4-340B-Base 與 Llama-3 70B、Mistral 8x22 和 Qwen-2 72B 三款開源模型的比較結果。73L28資訊網——每日最新資訊28at.com

可以看到,Nemotron-4-340B-Base 在常識推理任務以及像 BBH 這樣的流行基準測試中拿下了 SOTA,并在 MMLU 和 HumanEval 等代碼基準測試中位列第二。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

對齊獎勵模型構建

獎勵模型在模型對齊中起著至關重要的作用,是訓練強指令跟隨模型時用于偏好排序和質量過濾的重要評判者。73L28資訊網——每日最新資訊28at.com

為了開發一個強大的獎勵模型,英偉達收集了一個包含 10k 人類偏好數據的數據集 ——HelpSteer2。73L28資訊網——每日最新資訊28at.com

與成對排名模型不同,多屬性回歸獎勵模型在區分真實有用性和無關偽影(如僅因長度而偏好較長但無用的回復)方面更有效。此外,回歸模型在預測細粒度獎勵、捕捉相似回復之間的有用性細微差別方面表現更好。73L28資訊網——每日最新資訊28at.com

回歸獎勵模型建立在 Nemotron-4-340B-Base 模型之上,通過用一個新的獎勵「頭」替換模型的最終 softmax 層。73L28資訊網——每日最新資訊28at.com

這個「頭」是一個線性投影,將最后一層的隱藏狀態映射到一個包含 HelpSteer 屬性(有用性、正確性、一致性、復雜性、冗長性)的五維向量。73L28資訊網——每日最新資訊28at.com

在推理過程中,這些屬性值可以通過加權求和聚合為一個總體獎勵。73L28資訊網——每日最新資訊28at.com

數據對齊

值得注意的是,在整個對齊過程中,英偉達僅使用了大約 20K 的人工標注數據,而數據生成管線則生成了用于監督微調和偏好微調的 98% 以上的數據。73L28資訊網——每日最新資訊28at.com

提示生成準備73L28資訊網——每日最新資訊28at.com

生成合成提示,是合成數據生成(SDG)的第一步。73L28資訊網——每日最新資訊28at.com

這些提示在不同維度上的多樣性至關重要,包括任務多樣性(如寫作、開放問答、封閉問答)、主題多樣性(如 STEM、人文、日常生活)和指令多樣性(如 JSON 輸出、段落數量、是或否回答)。73L28資訊網——每日最新資訊28at.com

對此,英偉達使用 Mixtral-8x7B-Instruct-v0.1 作為生成器,分別對這些任務的合成提示進行了生成。73L28資訊網——每日最新資訊28at.com

單輪合成提示73L28資訊網——每日最新資訊28at.com

為了收集多樣化的主題,英偉達先引導生成器輸出一組多樣化的宏觀主題,然后再為每個合成的宏觀主題生成相關的子主題。73L28資訊網——每日最新資訊28at.com

加上人工收集的,最終得到的主題達到了 3K 個。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

用于合成提示生成的提示如下:73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

合成指令跟隨提示73L28資訊網——每日最新資訊28at.com

為了提升對于對齊模型至關重要的指令跟隨能力,就需要生成合成的指令跟隨提示(例如,「寫一篇關于機器學習的文章,你的回答應包含三個段落」)。73L28資訊網——每日最新資訊28at.com

具體來說,先隨機選擇一些合成提示。對于每個合成提示,從「可驗證」指令模板中隨機生成一個合成指令(例如,「你的回答應包含三個段落」)。然后,使用手動定義的模板將提示和指令連接在一起。73L28資訊網——每日最新資訊28at.com

除了單輪指令跟隨提示外,英偉達還構建了多輪指令跟隨提示,這些指令適用于所有未來的對話(例如「根據以下指令回答問題和所有后續問題:[指令開始] 用三個段落回答。[指令結束]」)。73L28資訊網——每日最新資訊28at.com

此外,英偉達還構建了第二輪指令跟隨提示,可以根據給定的指令修改之前的回答。73L28資訊網——每日最新資訊28at.com

合成兩輪提示73L28資訊網——每日最新資訊28at.com

為了在偏好微調中提高模型的多輪對話能力,英偉達構建了兩輪提示來建立偏好數據集。73L28資訊網——每日最新資訊28at.com

具體來說,提示包含一個用戶問題,一個助手回答,和另一個用戶問題,形式為「用戶:XXX;助手:XXX;用戶:XXX;」。73L28資訊網——每日最新資訊28at.com

英偉達從 ShareGPT 中獲取第一個用戶提示,并使用中間指令模型生成助手回答和下一輪問題。73L28資訊網——每日最新資訊28at.com

真實世界的 LMSYS 提示73L28資訊網——每日最新資訊28at.com

為了更好地模擬真實世界的用戶請求,英偉達將 LMSYS-Chat-1M 中的提示按平衡比例進行組合,并將其分為兩個不同的集合,一個用于監督學習,另一個用于偏好學習。73L28資訊網——每日最新資訊28at.com

在監督學習部分,英偉達移除了 LMSYS 中被標記為潛在不安全的提示,以避免引發不良對話。但在偏好學習部分則進行了保留,以便模型能夠學習如何區分安全和不安全的響應。73L28資訊網——每日最新資訊28at.com

從圖 3 中可以看到,合成提示的平均有用性高于 LMSYS 提示。由于簡單提示更容易「有用」,這意味著 LMSYS 提示比合成單輪提示平均來說更難且更復雜。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

合成對話生成73L28資訊網——每日最新資訊28at.com

通過監督微調,模型就可以學習到,如何以對話形式與用戶互動。73L28資訊網——每日最新資訊28at.com

英偉達通過提示指令模型生成基于輸入提示的響應,來啟動合成對話。73L28資訊網——每日最新資訊28at.com

為了培養多輪對話能力,他們把每個對話設計成包含三輪,好讓對話流程更加動態、更有互動性。73L28資訊網——每日最新資訊28at.com

通過迭代角色扮演,模型會交替模擬助手和用戶的角色。73L28資訊網——每日最新資訊28at.com

英偉達發現,為了在用戶回合中引導所需的行為,就需要提供明確的提示來定義不同的用戶個性。73L28資訊網——每日最新資訊28at.com

并且,附上對話歷史是至關重要的。73L28資訊網——每日最新資訊28at.com

他們對用戶回合進行了后處理,排除了禮貌陳述(如「謝謝你...」,「當然,我很高興...」)來模擬真實世界的用戶問題。73L28資訊網——每日最新資訊28at.com

生成演示數據,是采用的貪婪采樣方法。73L28資訊網——每日最新資訊28at.com

此外,英偉達會使用 Nemotron4-340B-Reward 評估對話質量,為每個樣本分配一個分數,并過濾掉那些低于預定閾值的樣本。73L28資訊網——每日最新資訊28at.com

這就提供了額外的質量控制層,保證保留下來的都是高質量數據。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

合成偏好數據生成73L28資訊網——每日最新資訊28at.com

英偉達使用了 10K 人工標注的 HelpSteer2 偏好數據,來訓練 Nemotron-4-340B-Reward。73L28資訊網——每日最新資訊28at.com

不過,他們還需要具有更廣泛提示領域、更高質量響應的偏好數據,這些響應來自頂級的中間模型,并在可能的情況下包含額外的真實信號。73L28資訊網——每日最新資訊28at.com

因此,英偉達生成了三元組形式的合成偏好數據(提示,選擇的響應,被拒絕的響應)。73L28資訊網——每日最新資訊28at.com

生成響應73L28資訊網——每日最新資訊28at.com

偏好數據包含合成的單輪提示、指令跟隨提示、雙輪提示,以及來自真實世界的提示,包括 ShareGPT 提示、LMSYS 提示、GSM8K 和 MATH 訓練數據集中的提示。73L28資訊網——每日最新資訊28at.com

對于每個提示,英偉達都使用了隨機的中間模型生成響應。73L28資訊網——每日最新資訊28at.com

通過多個模型生成響應,就能確保偏好數據集具有多樣化的響應,以供模型學習。73L28資訊網——每日最新資訊28at.com

此外,他們還生成了更具挑戰性的合成偏好示例,這些示例是根據 MT-Bench 從表現最好的模型中多次隨機生成的響應,這樣就可以進一步提升模型的性能。73L28資訊網——每日最新資訊28at.com

以基準真相作為判斷標準73L28資訊網——每日最新資訊28at.com

對于每個提示給出的多個響應,英偉達都需要對其偏好排序進行判斷,并選擇出被選中的響應和被拒絕的響應。73L28資訊網——每日最新資訊28at.com

一些任務可以使用基準真相(例如 GSM8K 和 MATH 訓練數據集中的答案)或驗證器(例如指令跟隨響應可以用 Python 程序驗證)來評估。73L28資訊網——每日最新資訊28at.com

以 LLM / 獎勵模型為裁判73L28資訊網——每日最新資訊28at.com

大多數提示,是沒有客觀答案的。因此,英偉達嘗試了以大語言模型為裁判和以獎勵模型為裁判。73L28資訊網——每日最新資訊28at.com

在第一種情況中,英偉達向裁判的大語言模型提供提示和兩個響應,并要求其比較這兩個響應。73L28資訊網——每日最新資訊28at.com

為了避免位置偏差,他們會交換響應順序后,再次詢問大語言模型。當大語言模型兩次判斷一致時,就會選出有效的三元組(提示、被選中的、被拒絕的)。73L28資訊網——每日最新資訊28at.com

另外,為了進一步探索了以獎勵模型為裁判的情況,英偉達要求 Nemotron-4-340B-Reward 預測每個(提示、響應)對的獎勵,并根據獎勵決定偏好排序。73L28資訊網——每日最新資訊28at.com

獎勵基準得分顯示以,獎勵模型為裁判的準確性,要高于以大語言模型為裁判。73L28資訊網——每日最新資訊28at.com

特別是在 Chat-Hard 類別中,選擇的響應和被拒絕的響應難以區分,以獎勵模型為裁判的表現,要遠優于以大語言模型為裁判,平均準確率為 0.87 對 0.54。73L28資訊網——每日最新資訊28at.com

在這個過程中,英偉達注意到:Chat-Hard 類別的評分對于合成數據生成中的偏好排序特別重要。73L28資訊網——每日最新資訊28at.com

因此,在后來的數據集迭代中,他們轉而使用以獎勵模型為裁判。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

從弱到強的迭代對齊73L28資訊網——每日最新資訊28at.com

如前所述,高質量的數據對于模型的對齊至關重要。73L28資訊網——每日最新資訊28at.com

在數據合成過程中,需要一個對齊的大語言模型來準確遵循指令。73L28資訊網——每日最新資訊28at.com

這就引發了一系列重要的問題:哪個模型最適合作為生成器?生成器的強度與數據質量之間有何關系?如何改進數據生成器?73L28資訊網——每日最新資訊28at.com

受到弱到強泛化的啟發,英偉達開發了一種新穎的迭代方法,逐步優化數據。這種方法結合了對齊訓練與數據合成的優勢,使它們能夠相互增強,并且持續改進。73L28資訊網——每日最新資訊28at.com

圖 4 展示了從弱到強的迭代對齊的工作流程。73L28資訊網——每日最新資訊28at.com

首先,使用一個初始對齊模型來生成對話和偏好數據。然后,通過監督微調和偏好調優,利用它們對更好的基礎模型進行對齊。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

有趣的是,英偉達發現,教師模型并不會限制學生模型的上限 ——73L28資訊網——每日最新資訊28at.com

隨著基礎模型和對齊數據的改進,新對齊的模型能夠顯著超過初始對齊模型。注意,對齊過程與基礎模型的預訓練是并行進行的。73L28資訊網——每日最新資訊28at.com

在第一次迭代中,英偉達選擇了 Mixtral-8x7B-Instruct-v0.1 作為初始對齊模型,因為它是一個具有許可的強大模型。73L28資訊網——每日最新資訊28at.com

生成的數據用于訓練 Nemotron-4-340B-Base 的一個中間檢查點,稱為 340B-Interm-1-Base。73L28資訊網——每日最新資訊28at.com

值得注意的是,340B-Interm-1-Base 的表現優于 Mixtral 8x7B 基礎模型,這反過來使得最終的 340B-Interm-1-Instruct 模型,能夠超過 Mixtral-8x7B-Instruct-v0.1 模型。73L28資訊網——每日最新資訊28at.com

這就證明,可以通過弱監督引出模型強大的能力。73L28資訊網——每日最新資訊28at.com

在第二次迭代中,英偉達使用生成的 340B-Interm-1-Instruct 模型,作為新的數據生成器。73L28資訊網——每日最新資訊28at.com

由于它比 Mixtral-8x7B-Instruct-v0.1 更強,第二次迭代生成的合成數據質量就更高。73L28資訊網——每日最新資訊28at.com

生成的數據用于訓練 340B-Interm-2-Base 模型,使其升級為 340B-Interm-2-Chat 模型。73L28資訊網——每日最新資訊28at.com

這個迭代過程形成了一個自我強化的飛輪效應,改進主要來自兩個方面 ——73L28資訊網——每日最新資訊28at.com

1)當使用相同的數據集時,基礎模型的強度直接影響指令模型的強度,基礎模型越強,指令模型也越強;73L28資訊網——每日最新資訊28at.com

2)當使用相同的基礎模型時,數據集的質量決定了指令模型的效果,數據質量越高,指令模型也越強。73L28資訊網——每日最新資訊28at.com

在整個對齊過程中,英偉達進行了多輪數據生成和改進,不斷提升模型的質量。73L28資訊網——每日最新資訊28at.com

附加數據源73L28資訊網——每日最新資訊28at.com

此外,英偉達還結合了多個補充數據集,以賦予模型特定的能力。73L28資訊網——每日最新資訊28at.com

主題跟隨73L28資訊網——每日最新資訊28at.com

主題連貫性和細粒度指令跟隨是,指令模型的重要能力。73L28資訊網——每日最新資訊28at.com

因此,英偉達結合了 CantTalkAboutThis 訓練集,其中包括了覆蓋廣泛主題的合成對話,并故意插入干擾回合以分散聊天機器人對主要主題的注意力。73L28資訊網——每日最新資訊28at.com

這就能幫助模型,在任務導向的交互中更好地專注于預定的主題。73L28資訊網——每日最新資訊28at.com

無法完成的任務73L28資訊網——每日最新資訊28at.com

某些任務可能由于需要特定的能力(如互聯網訪問或實時知識)而無法由模型獨立完成。73L28資訊網——每日最新資訊28at.com

為減少這種情況下的幻覺,英偉達采用少樣本方法,使用人類編寫的示例來提示大語言模型生成各種問題。73L28資訊網——每日最新資訊28at.com

然后,他們會明確要求大語言模型以拒絕的方式回應,收集這些回應,并將其與相應的問題配對。73L28資訊網——每日最新資訊28at.com

這些配對數據就可以用于訓練模型,讓它們能夠更好地處理無法完成的任務。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

STEM 數據集73L28資訊網——每日最新資訊28at.com

Open-Platypus 已被證明可以提高 STEM 和邏輯知識。因此,英偉達將具有許可的子集(如 PRM800K、SciBench、ARB 、openbookQA)納入訓練數據中。73L28資訊網——每日最新資訊28at.com

基于文檔的推理和問答73L28資訊網——每日最新資訊28at.com

基于文檔的問答是大語言模型的重要用例。73L28資訊網——每日最新資訊28at.com

英偉達利用 FinQA 數據集提高了數值的推理能力,使用人工標注數據提高了上下文問答的準確性,并使用 wikitablequestions 數據集,增強了模型對半結構化數據的理解。73L28資訊網——每日最新資訊28at.com

函數調用73L28資訊網——每日最新資訊28at.com

此外,英偉達還使用了一部分來自 Glaive AI 的樣本,以增強模型在函數調用方面的能力。73L28資訊網——每日最新資訊28at.com

對齊算法

分階段的監督微調73L28資訊網——每日最新資訊28at.com

監督微調(Supervised Fine-tuning,SFT)是模型對齊的第一步。73L28資訊網——每日最新資訊28at.com

為了改善傳統 SFT 方法存在的缺陷,英偉達設計了一種兩階段的 SFT 策略,使模型能夠依次、有計劃地學習不同的行為。73L28資訊網——每日最新資訊28at.com

結果顯示,這種方法在所有下游任務中都產生了更好的效果。73L28資訊網——每日最新資訊28at.com

代碼 SFT73L28資訊網——每日最新資訊28at.com

為了在不影響其他任務的情況下提高編碼和推理能力,英偉達選擇先在編碼數據上進行 SFT。73L28資訊網——每日最新資訊28at.com

為了獲得大量的數據,英偉達開發了一種名為 Genetic Instruct 的全新方法 —— 通過對進化過程的模擬,利用自我指令和向導編碼器突變,從少量高質量種子生成大量合成樣本。73L28資訊網——每日最新資訊28at.com

過程中,英偉達還引入了一種適應度函數,利用 LLM 評估生成指令及其解決方案的正確性和質量。73L28資訊網——每日最新資訊28at.com

然后,通過這些評估和檢查的樣本會被添加到種群池中,進化過程會持續進行,直到達到目標種群規模。73L28資訊網——每日最新資訊28at.com

最終,經過廣泛的去重和過濾后,英偉達保留了大約 80 萬條樣本用于代碼 SFT 訓練。73L28資訊網——每日最新資訊28at.com

通用 SFT73L28資訊網——每日最新資訊28at.com

第二階段,就是通用 SFT 了。73L28資訊網——每日最新資訊28at.com

這里,英偉達采用的是一個包含 20 萬樣本的混合數據集。73L28資訊網——每日最新資訊28at.com

為了減輕遺忘的風險,數據混合中還包括了前一個代碼 SFT 階段的 2% 的代碼生成樣本。73L28資訊網——每日最新資訊28at.com

偏好微調73L28資訊網——每日最新資訊28at.com

在完成監督微調后,英偉達繼續通過偏好微調來改進模型。73L28資訊網——每日最新資訊28at.com

在這個階段,模型將學習偏好示例,其形式是:提示,選擇的響應,被拒絕的響應。73L28資訊網——每日最新資訊28at.com

直接偏好優化(DPO)73L28資訊網——每日最新資訊28at.com

DPO 算法通過優化策略網絡,來最大化選擇和被拒絕響應之間的隱含獎勵差距。73L28資訊網——每日最新資訊28at.com

在策略學習區分選擇和被拒絕的響應時,可以觀察到,隨著差距的增加,選擇和被拒絕響應的概率都在一致地下降,即使選擇的響應是高質量的。73L28資訊網——每日最新資訊28at.com

根據經驗,當訓練時間足夠長時,策略網絡容易過擬合,一個指標(例如,MT-Bench)的改進通常伴隨著其他指標(例如,零樣本 MMLU)的退化。73L28資訊網——每日最新資訊28at.com

為了解決這些問題,英偉達在選擇的響應上添加了加權的 SFT 損失,以補充原始的 DPO 損失。73L28資訊網——每日最新資訊28at.com

額外的 SFT 損失有助于防止策略網絡大幅偏離偏好數據,特別是因為偏好數據不是從參考策略生成的。73L28資訊網——每日最新資訊28at.com

為了避免模型學習低質量的選擇響應,當沒有可用的真實值時,英偉達使用了 Nemotron-4-340B-Reward 來挑選高質量的選擇響應示例。最終,這產生了一個包含 16 萬示例的偏好數據集。73L28資訊網——每日最新資訊28at.com

獎勵感知偏好優化(RPO)73L28資訊網——每日最新資訊28at.com

為了解決 DPO 存在的過擬合問題,英偉達提出了一種新算法 —— 獎勵感知偏好優化(RPO)。它嘗試使用由策略網絡定義的隱含獎勵近似獎勵差距。73L28資訊網——每日最新資訊28at.com

基于此,便得到了一個新的損失函數:73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

結果顯示,隨著 RPO 迭代次數的增加,模型還可以持續地在所有任務上獲得提升。73L28資訊網——每日最新資訊28at.com

經過三次 RPO 訓練迭代后的檢查點,就是最終的 Nemotron-4-340B-Instruct。73L28資訊網——每日最新資訊28at.com

指令模型評估

自動基準測試73L28資訊網——每日最新資訊28at.com

英偉達對 Nemotron-4-340B-Instruct 進行了全面的自動基準測試評估:73L28資訊網——每日最新資訊28at.com

單輪對話:AlpacaEval 2.0 LC 和 Arena Hard73L28資訊網——每日最新資訊28at.com

多輪對話:MT-Bench(GPT-4-Turbo)。需要注意的是,這是原始 MT-Bench 的修正版本,得分平均要低 0.8 分。73L28資訊網——每日最新資訊28at.com

綜合基準測試:MMLU(零樣本)73L28資訊網——每日最新資訊28at.com

數學:GSM8K(零樣本)73L28資訊網——每日最新資訊28at.com

代碼:HumanEval(零樣本)和 MBPP(零樣本)上的 Pass@1 得分73L28資訊網——每日最新資訊28at.com

指令跟隨:IFEval73L28資訊網——每日最新資訊28at.com

主題跟隨:TFEval73L28資訊網——每日最新資訊28at.com

正如表 5 所示,Nemotron-4-340B-Instruct 在當前可用的開源模型中表現出色,具備很強的競爭力。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

對齊訓練包括:代碼 SFT、通用 SFT、DPO 和三輪 RPO。73L28資訊網——每日最新資訊28at.com

表 6 展示了模型最終的成績,并量化了每個對齊階段的中間模型的性能:73L28資訊網——每日最新資訊28at.com

CodeSFT 階段顯著提高了 HumanEval 得分,從基礎模型的 57.3 提升到 70.7;73L28資訊網——每日最新資訊28at.com

接下來的通用 SFT 階段大幅提升了其他類別的準確性,如 MT-Bench 和 MMLU,盡管 HumanEval 得分略有下降;73L28資訊網——每日最新資訊28at.com

DPO 階段進一步提升了大多數指標,但 MT-Bench 的得分略有下降;73L28資訊網——每日最新資訊28at.com

最后的 RPO 階段均勻地提升了所有指標。特別是,MT-Bench 得分從 7.90 增加到 8.22,IFEval Prompt-Strict-Acc 的得分從 61.7 增加到 79.9。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

人類評估73L28資訊網——每日最新資訊28at.com

除了自動評估外,英偉達模型進行了人類評估。其中,標注員被提供了 136 個提示,分為 10 個不同的任務類別。73L28資訊網——每日最新資訊28at.com

基于「有用性」和「真實性」這兩個維度,英偉達詳細定義了 5 個質量等級的具體內容,從而在減少了主觀性的同時,提升了可靠性。73L28資訊網——每日最新資訊28at.com

在標注設計中,每個提示都與固定模型集合中的三個不同響應配對。每個提示的響應順序是隨機的,所有提示和響應都由同一組標注員進行評估。73L28資訊網——每日最新資訊28at.com

標注完成后,將評分轉換為相對于 GPT-4-1106-preview 的相對勝 / 平 / 負率。73L28資訊網——每日最新資訊28at.com

從圖 5 中可以看到,除了提取和重寫任務外,Nemotron-4-340B-Instruct 的勝率與 GPT-4-1106-preview 相當或更好,特別是在多輪對話中表現出色。73L28資訊網——每日最新資訊28at.com

整體來說,Nemotron-4-340B-Instruct 的勝:平:負比率為 28.19%:46.57%:25.24%。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

從表 7 中則可以看到,與 GPT-4-1106-preview 相比,標注員認為 Nemotron-4-340B-Instruct 的響應長度更為合適(79.41% 對 74.02%)。73L28資訊網——每日最新資訊28at.com

值得注意的是,這一優勢主要來自較低的長 / 冗長響應率(20.10% 對 25.74%)。73L28資訊網——每日最新資訊28at.com

73L28資訊網——每日最新資訊28at.com

作者

73L28資訊網——每日最新資訊28at.com

參考資料:73L28資訊網——每日最新資訊28at.com

https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/73L28資訊網——每日最新資訊28at.com

https://venturebeat.com/ai/nvidias-nemotron-4-340b-model-redefines-synthetic-data-generation-rivals-gpt-4/73L28資訊網——每日最新資訊28at.com

本文來自微信公眾號:新智元 (ID:AI_era)73L28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-4645-0.html英偉達開源 3400 億巨獸:98% 合成數據訓出最強開源通用模型,性能對標 GPT-4o

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 五糧液濃香酒:勞動節送禮的精致藝術

下一篇: 蘋果文生圖應用:僅生成卡通圖片、元數據標注 AI 生成

標簽:
  • 熱門焦點

猜你喜歡

    SQL Error: select * from ***_ecms_news13 where id in(33,152,,157,128,194) limit 6
Top