當前位置：首頁 > 元宇宙 > AI

可協助 AI 語言模型改善自我糾錯能力，谷歌推出 BIG-Bench Mistake 數據集

來源：責編：時間：2024-01-18 17:31:32 280觀看

導讀 1 月 15 日消息，谷歌研究院日前使用自家 BIG-Bench 基準測試建立了一項“BIG-Bench Mistake”數據集，并利用相關數據集對市面上流行的語言模型“出錯概率”及“糾錯能力”進行了一系列評估研究。谷歌研究人員表

1 月 15 日消息，谷歌研究院日前使用自家 BIG-Bench 基準測試建立了一項“BIG-Bench Mistake”數據集，并利用相關數據集對市面上流行的語言模型“出錯概率”及“糾錯能力”進行了一系列評估研究。

谷歌研究人員表示，由于過去沒有能夠評估大語言模型“出錯概率”及“自我糾錯能力”的數據集，因此他們創建了一項名為“BIG-Bench Mistake”的專用基準數據集用于評估測試。

據悉，研究人員首先使用 PaLM 語言模型在自家 BIG-Bench 基準測試任務中運行了5項任務，之后將生成的“思維鏈（Chain-of-Thought）”軌跡修改加入“邏輯錯誤”部分，之后重新丟給模型判斷思維鏈軌跡中哪些地方存在錯誤。

為了提升數據集準確程度，谷歌研究人員反復進行上述過程，最終形成了一項內含“255 項邏輯錯誤”的“BIG-Bench Mistake”專用基準數據集。

研究人員提到，由于“BIG-Bench Mistake”數據集中的邏輯錯誤較為“簡單明確”，因此可以作為一個良好的測試標準，可協助語言模型先從簡單的邏輯錯誤開始練習，逐步提升辨識錯誤的能力。

研究人員利用該數據集對市面上模型進行測試，發現雖然絕大多數語言模型可以識別在推理過程中出現的邏輯錯誤并進行自我修正，但這個過程“并不夠理想”，通常需要人工干預來糾正模型輸出的內容。

▲ 圖源谷歌研究院新聞稿

從報告中發現，谷歌聲稱“目前最先進的大語言模型”自我糾錯能力也相對有限，在相關測試結果中成績發揮最好的模型，也僅僅找出了 52.9% 的邏輯錯誤。

谷歌研究人員同時聲稱，這一 BIG-Bench Mistake 數據集有利于改善模型自我糾錯能力，經過相關測試任務微調后的模型，“即便是小型模型表現也通常比零樣本提示的大模型更好”。

據此，谷歌認為在模型糾錯方面，可以使用專有小型模型“監督”大型模型，相對于讓大語言模型學會“糾正自我錯誤”，部署專用于監督大模型的小型專用模型有利于改善效率、降低相關AI 部署成本，并更便于微調。

本文鏈接：http://www.tebozhan.com/showinfo-45-3236-0.html可協助 AI 語言模型改善自我糾錯能力，谷歌推出 BIG-Bench Mistake 數據集

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： Meta 承認使用盜版書籍來訓練 AI，并拒絕賠償作家

下一篇：英偉達從印度獲得巨額 AI 芯片訂單，價值達 5 億美元

標簽：

熱門焦點

元宇宙步入暗夜

撰文 | 文燁豪元宇宙的故事，似乎講不通了。當下，刮起元宇宙熱潮的Roblox股價已跌去大半，帶頭大哥Meta也正因元宇宙虧損深陷泥潭。再看國內，從字節“派對島&
字節、騰訊、網易鏖戰元宇宙背后，大廠究竟在爭奪什么？

正當互聯網商業躊躇不前，互聯網大廠為了在存量中的增長擠破頭皮之時，元宇宙的概念被資本點燃。先是Facebook更名Meta正式進軍元宇宙，然后字節跳動收購了一家VR硬
英特爾首款加密芯片將于今年上市｜國際動態

No.1 英特爾首款加密芯片將于今年上市2月13日消息，英特爾首款名為“區塊鏈加速器”的加密芯片將于今年晚些時候上市。目前，已經有兩家公司預訂了這項技術，分別是G
從虛擬餐廳到虛擬時裝秀，行業巨頭掀起元宇宙商標注冊潮

自從 Facebook 更名為 Meta 后，關于元宇宙的討論愈發激烈，這一詞匯也越來越多的出現在我們的視野里。這是一個非常有趣的話題。伴隨著爭論，有些人認為是馬克·扎
頂流IP“冰墩墩”帶著中國元素NFT進入全球視野

一場被國際奧委會主席評價堪稱獨具匠心、非凡卓越的2022年北京冬季奧運會，在這個“雙奧之城”經歷了16個令人難忘的精彩日夜，最終圓滿閉幕。讓我們印象深刻的不
NFT藝術家Hayley Rincon 專訪：我的迷幻數字藝術之路

Hayley Rincon是一位令人印象深刻才華橫溢的創作者，她的作品呈現出迷幻的氣息。今天就來聊聊她的藝術作品，和她自己的數字藝術之路。Hayley是加利福尼亞灣區的有
NFT：新騙局的狩獵場

騙局的自動化需要更好的防御，從數字身份開始。前幾天我在OpenSea上購買了一個NFT，是才華橫溢的藝術家海倫·福爾摩斯 (Helen Holmes) 的漫畫，來自她的 "原作 "收
獨立故事片“Calladita”將使用 NFT 籌集資金

導演 Miguel Faus 正在轉向加密來資助他的處女作，由 Paula Grimaldo 和 Emily Mortimer 主演。“Calladita”（導演 Miguel Faus）。圖片：米格爾·福斯在過去的一年
冬奧會數字收藏品升溫，市場再現“一墩難求”

根據公開信息顯示，國際奧委會官方授權的冰墩墩數字盲盒于北京時間2月12日凌晨在nWayPlay平臺發售，總數為500個，每個99美元，每人限購5個。此外，不同的奧運徽章數字藏

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

可協助 AI 語言模型改善自我糾錯能力，谷歌推出 BIG-Bench Mistake 數據集

元宇宙步入暗夜

字節、騰訊、網易鏖戰元宇宙背后，大廠究竟在爭奪什么？

英特爾首款加密芯片將于今年上市｜國際動態

從虛擬餐廳到虛擬時裝秀，行業巨頭掀起元宇宙商標注冊潮

頂流IP“冰墩墩”帶著中國元素NFT進入全球視野

NFT藝術家Hayley Rincon 專訪：我的迷幻數字藝術之路

NFT：新騙局的狩獵場

獨立故事片“Calladita”將使用 NFT 籌集資金

冬奧會數字收藏品升溫，市場再現“一墩難求”

最新推薦

茅臺的元宇宙App火了，也被罵慘了

保時捷推出虛擬超跑，車企元宇宙營銷這么香？

避坑指南：遠離具有這些特性的NFT

超跑與NFT的首次結合，蘭博基尼能否破局？

NFT行業的三大區塊鏈之一引起了Snoop Dogg的強烈興趣，究竟有何潛力？

新聞業在元宇宙的現狀和未來

猜你喜歡

熱門推薦

相關資訊