當(dāng)前位置：首頁 > 元宇宙 > AI

北大千問團隊推出數(shù)學(xué)專用版 CriticGPT，“找茬”讓大模型進步更快

來源：責(zé)編：時間：2024-07-11 17:26:16 127觀看

導(dǎo)讀批評不僅能讓人進步，也能讓大模型的能力提升。OpenAI 就用這個思路造了個“找茬模型”CriticGPT。非常巧合的是，就在 CriticGPT 放出的前幾天，北大聯(lián)合千問等團隊以類似的思路設(shè)計出了“數(shù)學(xué)專用版”CriticGPT。

批評不僅能讓人進步，也能讓大模型的能力提升。

OpenAI 就用這個思路造了個“找茬模型”CriticGPT。非常巧合的是，就在 CriticGPT 放出的前幾天，北大聯(lián)合千問等團隊以類似的思路設(shè)計出了“數(shù)學(xué)專用版”CriticGPT。

在無需訓(xùn)練的設(shè)置下，驗證器能夠在推理時輔助模型在 GSM8K 上的準(zhǔn)確率從 86.6% 提升到 88.2%。

在 GSM8K 數(shù)據(jù)集上，它可以讓模型的準(zhǔn)確率從 86.6% 提升到 88.2%。

CriticGPT 的核心思路是在代碼中故意設(shè)置 bug 并進行詳細標(biāo)注，然后用得到的數(shù)據(jù)訓(xùn)練出會 debug 的模型。

北大團隊發(fā)現(xiàn)，這種方法不僅在代碼當(dāng)中有用，也能幫助語言模型解決數(shù)學(xué)問題。

于是團隊利用相似的思路，把代碼換成數(shù)學(xué)問題，推出了“數(shù)學(xué)版 CriticGPT”——Math-Minos。

用 GPT4 逐步提出修正意見

在數(shù)學(xué)推理領(lǐng)域，驗證解決方案的正確性，是確保推理質(zhì)量的關(guān)鍵步驟。

然而，現(xiàn)有的數(shù)學(xué)驗證器大多依賴于二元分類標(biāo)簽進行訓(xùn)練，這種方式在提供正確或錯誤原因的解釋上存在明顯不足，無法給驗證器提供足夠充分的監(jiān)督信號來訓(xùn)練。

Math-Minos 則克服了這一局限，提供了更深入的解釋，極大地豐富了驗證器的訓(xùn)練信息。

它引入了逐步的自然語言反饋作為理由標(biāo)簽，不僅指出了解決方案的正誤，還能逐步分析出錯誤的原因。

在自然語言反饋的獲取上，研究團隊一開始使用 GPT-4 生成訓(xùn)練數(shù)據(jù)，但通過實驗發(fā)現(xiàn)，即使是 GPT-4，在逐步評價數(shù)學(xué)推理任務(wù)時也會出現(xiàn)一定比例的錯誤。

為了一定程度避免這個問題，研究人員通過在提示中引入步驟級別的二元分類標(biāo)簽，簡化了 GPT-4 的任務(wù)，使得 GPT-4 能夠更準(zhǔn)確地生成評估。

首先，通過監(jiān)督式微調(diào)，使用自然語言反饋作為訓(xùn)練數(shù)據(jù)，有效提升了模型的評估能力。

其次，通過標(biāo)準(zhǔn)的 ORM（Outcome Reward Model，輸出獎勵模型）和 PRM（Process Reward Model，過程獎勵模型）訓(xùn)練，實現(xiàn)了高效的推理，這種做法有兩個好處。

一是通過兩階段訓(xùn)練，可以將二分類數(shù)據(jù)和監(jiān)督微調(diào)數(shù)據(jù)解耦。

由于監(jiān)督信號的稀疏性，訓(xùn)練二分類的數(shù)據(jù)往往遠多于監(jiān)督微調(diào)的數(shù)據(jù)，而研究發(fā)現(xiàn)，僅需要少量的監(jiān)督微調(diào)數(shù)據(jù)，就可以很大程度提升模型的評估能力。

另一方面，在驗證器進行驗證時，不需要顯示地生成自然語言反饋，讓推理過程更高效。

ORM 任務(wù)表現(xiàn)明顯提升

總得來看，研究人員在訓(xùn)練階段添加了 30K 的自然語言反饋數(shù)據(jù)，為 Mistral-7B 驗證器帶來了數(shù)學(xué)能力的提升，在 Best-of-256 的實驗設(shè)置下：

在 ORM 的設(shè)置下，MATH-Minos 將 Mistral-7B 的準(zhǔn)確率在 GSM8K 數(shù)據(jù)集從 86.2% 提升到 87.3%，在 MATH 數(shù)據(jù)集從 35.9% 提升到 37.4%。

在 PRM 的設(shè)置下，MATH-Minos 將 Mistral-7B 的準(zhǔn)確率在 GSM8K 數(shù)據(jù)集從 87.1% 提升到 87.6%，在 MATH 數(shù)據(jù)集從 36.7% 提升到 37.8%。

在與 Self-Consistency 結(jié)合的設(shè)置下，MATH-Minos 將 Mistral-7B 的準(zhǔn)確率在 GSM8K 數(shù)據(jù)集從 87.1% 提升到 88.2%，在 MATH 數(shù)據(jù)集從 37.8% 提升到 38.6%。

在 ORM 和 PRM 任務(wù)設(shè)置中，Math-Minos 均展現(xiàn)出了優(yōu)越的性能，特別是在 ORM 設(shè)置中，其改進更為顯著。

另外，研究團隊還對生成器在步驟級別產(chǎn)生的錯誤進行了深入分析，將其歸類為五種類型 —— 無關(guān)錯誤、累積錯誤、計算錯誤、邏輯錯誤和其他錯誤。

分析結(jié)果表明，在多步驟推理中，步驟錯誤的可能原因有很多種，而且模型在這些錯誤類型中都有可能出錯，這進一步強調(diào)了引入自然語言反饋來指導(dǎo)模型學(xué)習(xí)的重要性。

實驗發(fā)現(xiàn)，在兩個數(shù)據(jù)集上，累積錯誤（即一個步驟的錯誤很可能直接導(dǎo)致所有后續(xù)步驟的錯誤）在所有錯誤類型中占到的比例最高。

不同數(shù)據(jù)集上的錯誤分布也有不同的特點，在相對簡單的 GSM8K 上，計算錯誤更多；在更困難的 MATH 數(shù)據(jù)集上，邏輯錯誤更多。

通過構(gòu)建元評估集，研究團隊評估了驗證器在沒有生成器影響下，準(zhǔn)確判斷最終答案的能力。

結(jié)果顯示，Math-Minos 在訓(xùn)練過程中的元評估一致優(yōu)于傳統(tǒng)的 ORM，并且展現(xiàn)出更快的收斂速度和更精準(zhǔn)的判斷能力。

同時實驗結(jié)果也表明，Math-Minos 具有很強的 Scale Up 的潛力。

總之，Math-Minos 的開發(fā)不僅提升了數(shù)學(xué)驗證器的性能，更為自然語言處理領(lǐng)域提供了一種新的訓(xùn)練范式。

研究團隊希望這項工作能夠啟發(fā)未來研究，探索自然語言反饋與分類式驗證器的潛在整合，推動大型語言模型在復(fù)雜推理任務(wù)上的能力。

論文地址：

https://arxiv.org/abs/2406.14024

GitHub：

https://github.com/KbsdJames/MATH-Minos

本文來自微信公眾號：量子位（ID：QbitAI），作者：關(guān)注前沿科技

本文鏈接：http://www.tebozhan.com/showinfo-45-5086-0.html北大千問團隊推出數(shù)學(xué)專用版 CriticGPT，“找茬”讓大模型進步更快

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：騰訊智影小程序上線 AI 視頻功能，限時免費一鍵生成風(fēng)格化視頻

下一篇：古爾曼：蘋果首款支持 Apple Intelligence 的智能家居設(shè)備將是一款桌面機器人

標(biāo)簽：

熱門焦點

清華、北大等86所高校布局元宇宙，是風(fēng)口還是噱頭？

作者：徐賜豪來源：區(qū)塊鏈日報據(jù)全國高校人工智能與大數(shù)據(jù)創(chuàng)新聯(lián)盟元宇宙專委會不完全統(tǒng)計，截至2023年7月，全國共有86所高校戰(zhàn)略布局元宇宙領(lǐng)域，其中本科院校73所，高職?？圃盒?3所
新周期，誰在堅守窄門？

來源：錦緞今日的投資者恐怕已經(jīng)忘記了，在OpenAI創(chuàng)造出ChatGPT這一殺器的前夜，生成式AI也曾經(jīng)是一道窄門，窄到連馬斯克都差點失去了信心。在當(dāng)時的輿論眼中，AGI的道路不夠性感，不夠
元宇宙帶來沉浸式智能登錄？你學(xué)會了嗎？

備受資本市場寵愛的元宇宙概念，正掀起一番番波瀾。元宇宙作為虛實相融的互聯(lián)網(wǎng)應(yīng)用和社會形態(tài)，與沉浸式體驗緊密相關(guān)。多重路徑，打造無感知沉浸式智能登錄《設(shè)計
有人狂賺千倍，資金盤游戲日進上億，元宇宙泡沫還能吹多久？

你還不知道元宇宙？沒關(guān)系。看看微軟、Meta、英偉達的雄心壯志，便可領(lǐng)略元宇宙的遼闊。1月18日，微軟宣布將以687億美元收購動視暴雪，這是有史以來互聯(lián)網(wǎng)領(lǐng)域最大的
英特爾首款加密芯片將于今年上市｜國際動態(tài)

No.1 英特爾首款加密芯片將于今年上市2月13日消息，英特爾首款名為“區(qū)塊鏈加速器”的加密芯片將于今年晚些時候上市。目前，已經(jīng)有兩家公司預(yù)訂了這項技術(shù)，分別是G
超跑與NFT的首次結(jié)合，蘭博基尼能否破局？

蘭博基尼公司近日稱即將推出它的首款NFT，并且將加速進軍區(qū)塊鏈領(lǐng)域。這家聞名遐邇的意大利汽車廠商野心勃勃地將目光投向混合動力和電動跑車，并宣布將拍賣與瑞士
小眾有趣NFT藝術(shù)作品欣賞（1）

隨著NFT發(fā)展火熱，越來越多領(lǐng)域與NFT融合，NFT藝術(shù)在加密領(lǐng)域中占據(jù)了很大一部分。NFT藝術(shù)與傳統(tǒng)藝術(shù)有相似之處，也有完全不同的地方。NFT藝術(shù)與傳統(tǒng)藝術(shù)一樣，表現(xiàn)了
花旗集團前高管加入Provenance區(qū)塊鏈，擔(dān)任CEO

No.1 花旗集團前高管加入Provenance區(qū)塊鏈，擔(dān)任CEO3月1日消息，Provenance區(qū)塊鏈基金會已任命花旗集團前高管摩根·麥肯尼（Morgan McKenney）為新任首席執(zhí)行官。麥肯
電影工業(yè)巨頭好萊塢計劃進軍元宇宙，將會對行業(yè)帶來什么影響？

元宇宙聽起來像不像是科幻小說中出現(xiàn)的術(shù)語？事實確實如此。小說家尼爾·斯蒂芬森在1992年的小說《雪崩》中首次用這個詞來定義了一個多連接的虛擬宇宙，它能夠模

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

北大千問團隊推出數(shù)學(xué)專用版 CriticGPT，“找茬”讓大模型進步更快

清華、北大等86所高校布局元宇宙，是風(fēng)口還是噱頭？

新周期，誰在堅守窄門？

元宇宙帶來沉浸式智能登錄？你學(xué)會了嗎？

有人狂賺千倍，資金盤游戲日進上億，元宇宙泡沫還能吹多久？

英特爾首款加密芯片將于今年上市｜國際動態(tài)

超跑與NFT的首次結(jié)合，蘭博基尼能否破局？

小眾有趣NFT藝術(shù)作品欣賞（1）

花旗集團前高管加入Provenance區(qū)塊鏈，擔(dān)任CEO

電影工業(yè)巨頭好萊塢計劃進軍元宇宙，將會對行業(yè)帶來什么影響？

最新推薦

虛擬人再升級，企業(yè)可以解放雙手了？

B端難做：留給魔琺科技的時間不多了

亞馬遜AIGC全家桶來襲，巨頭AI大亂戰(zhàn)都有什么殺手锏

【量子位】虛擬數(shù)字人深度產(chǎn)業(yè)報告 | 元宇宙Meta洞見

NFT的未來：傳統(tǒng)企業(yè)與去中心化機構(gòu)之間的競賽

2022年的Web3：定義概念并開創(chuàng)新范式

猜你喜歡

熱門推薦

相關(guān)資訊