當前位置：首頁 > 元宇宙 > AI

谷歌推出“BIG-Bench Mistake”數據集，助力語言模型糾錯能力提升

來源：責編：時間：2024-01-15 17:09:20 207觀看

導讀1月15日消息，近日，谷歌研究院公布了一項新的研究成果，他們利用自家BIG-Bench基準測試構建了一個名為“BIG-BenchMistake”的數據集。該數據集的主要目的是評估當前市場上流行的語言模型在“出錯概率”及“糾錯能力”方面

1月15日消息，近日，谷歌研究院公布了一項新的研究成果，他們利用自家BIG-Bench基準測試構建了一個名為“BIG-BenchMistake”的數據集。該數據集的主要目的是評估當前市場上流行的語言模型在“出錯概率”及“糾錯能力”方面的表現。

此前，對于大型語言模型的錯誤識別和自我修正能力的評估一直缺乏有效的數據集。為了填補這一空白，谷歌研究人員精心設計了“BIG-BenchMistake”專用基準數據集。他們首先使用PaLM語言模型在BIG-Bench基準測試中執行了五項任務，并在其生成的“思維鏈”中故意引入邏輯錯誤。然后，這些包含錯誤的思維鏈被重新提交給模型，以測試其能否識別出其中的錯誤。

經過多輪迭代和優化，研究人員最終構建了一個包含255項邏輯錯誤的“BIG-BenchMistake”數據集。這些錯誤被設計成簡單明了的形式，以便于語言模型從基本的邏輯錯誤開始逐步提高其錯誤識別能力。

據ITBEAR科技資訊了解，谷歌研究人員利用該數據集對市場上的多個語言模型進行了測試。結果顯示，雖然大多數模型能夠在一定程度上識別并修正推理過程中的邏輯錯誤，但這一過程往往不夠理想，仍需要人工干預來完善模型的輸出。

在測試中表現最好的模型也僅能識別出52.9%的邏輯錯誤，這表明即便是目前最先進的大型語言模型在自我糾錯方面仍存在較大提升空間。谷歌研究人員認為，“BIG-BenchMistake”數據集將有助于改進模型的自我糾錯能力。通過針對相關測試任務進行微調，即便是小型模型也能在監督大型模型時表現出更好的性能。

因此，谷歌提出了一種新的思路，即使用專用的小型模型來監督大型模型的運行。這種做法不僅有利于提高效率、降低AI部署成本，還能更方便地對模型進行微調。未來，這種大小模型協同工作的方式或許將成為提升AI性能的重要方向之一。

標簽：谷歌

免責聲明：本網信息來自于互聯網，目的在于傳遞更多信息，并不代表本網贊同其觀點。其內容真實性、完整性不作任何保證或承諾。如若本網有任何內容侵犯您的權益，請及時聯系我們，本站將會在24小時內處理完畢。

舉報 0收藏 0打賞 0評論 0

更多>同類資訊

CES 2024新奇發現：AI音樂為狗狗減壓，每月僅需48元

1月11日消息，近日，在備受矚目的CES 2024展會上，一款專門為狗狗設計的AI音樂引起了廣泛關注。推出這款產品的是日本一家新興初創企業。據悉，這家名為“One by One Music”的公司，通過與持有獸醫執照的教授和醫生共同開展研究，經過長達兩年的深入

01-11

沃爾瑪在CES 2024宣布與微軟合作，以AI技術重塑數字購物體驗

1月11日消息，近日，在備受矚目的CES 2024國際消費電子展上，美國零售業巨頭沃爾瑪罕見亮相，并與科技巨頭微軟攜手，共同宣布將打造一種全新的AI驅動的購物體驗。沃爾瑪首席執行官Doug McMillon在展會的主題演講中詳細闡述了這一創新舉措。他表示，沃

01-11

OpenAI推出ChatGPT Team訂閱服務

1月11日消息，人工智能領域的領軍企業OpenAI近日宣布，針對員工人數在150人以下的小型企業團隊，推出了一項全新的訂閱服務——ChatGPT Team。根據該計劃，每位用戶每月的費用在按年計費時為25美元，按月計費時則為30美元。此前，OpenAI已經為個人用戶

01-11

OpenAI推出GPT Store，聊天機器人銷售與共享新平臺下周亮相

1月5日消息，OpenAI近日向GPT Builders的簽約人員發送了一封電子郵件，宣布GPT Store即將在下周亮相。這一新平臺將允許用戶銷售和共享基于OpenAI大型語言模型的聊天機器人(GPT)，為開發者提供了一個全新的創收途徑，其收入將直接與他們的GPT使用量掛

01-05

OpenAI出價百萬美元求新聞授權，小型出版商不買賬

1月5日消息，近日有報道稱，人工智能領域的領軍企業OpenAI正在與多家媒體公司展開授權談判。據兩位參與談判的高管透露，OpenAI提出的價格范圍在每年100萬至500萬美元之間，以獲得利用新聞內容訓練其大型語言模型的權限。然而，這一價格對于一些小型出

01-05

谷歌AI語言模型Bard升級版“Bard Advanced”即將上線，提供全面優質服務體驗

1月5日消息，據最新報道，谷歌正在積極籌備推出其AI語言模型Bard的升級版——Bard Advanced。此舉類似于先前推出的ChatGPT Plus付費訂閱服務，旨在提供更為全面和優質的服務體驗。Bard作為谷歌的AI語言模型，已經為用戶提供了廣泛的信息交互和智能響

01-05

微軟 Edge 重塑身份，全新命名為“微軟 Edge：AI 瀏覽器”

1月3日消息，微軟日前對其移動瀏覽器進行了一次重大改名，將其安卓和 iOS 平臺的“微軟 Edge”更名為“微軟 Edge：AI 瀏覽器”，著重突顯其對人工智能領域的強烈關注。這款重新命名的瀏覽器不僅僅有了嶄新的名字，而且在App Store和Google Play Store

01-03

英偉達斥巨資鎖定HBM3內存供應，確保AI與HPC GPU穩定推出

12月31日消息，據韓國Chosun Biz最新報道，英偉達在積極預定臺積電產能的同時，還斥資巨大與美光和SK海力士簽下了HBM3內存的供應大單。知情人士透露，英偉達此次預購的HBM3內存規模在700億至1萬億韓元之間。盡管具體細節尚未公布，但市場普遍分析認為

12-31

提示詞工程：人工智能時代的關鍵技能與人際溝通的融合

12月29日消息，如果你是一名引導人工智能產出的專家，即提示詞工程師，負責優化如ChatGPT這樣的聊天機器人的響應，那么你可能會享受到相當可觀的報酬。盡管如此，來自OpenAI的內部人士指出，這項技術并非如外界想象的那樣充滿魔力。近日，OpenAI的一

12-29

LG推出創新雙輪腿智能家居AI機器人，CES 2024引領未來家居革命

12月28日消息，LG電子今日宣布在即將到來的CES 2024展會上推出了一款引人注目的智能家居AI機器人。這款智能機器人采用了創新性的“雙輪腿”設計，具備獨立移動的能力，可以連接和控制智能家電以及家庭物聯網設備，同時與用戶進行互動。據ITBEAR科技資

12-28

谷歌發布全新AI SDK，助力Android應用集成Gemini Pro模型

12月26日消息，近日，谷歌發布了全新的Google AI SDK，旨在為Android應用程序集成其高性能的Gemini Pro模型提供更加便捷的解決方案，從而無需開發人員建立和管理后端基礎架構。據了解，Gemini Pro是谷歌最強大的模型之一，可處理各種文本和圖像推理任

12-26

人工智能勝過人類？研究揭示ChatGPT的優勢

12月26日消息，最新的研究結果顯示，ChatGPT 提供的建議在平衡性、全面性、人性化以及實用性等方面，明顯優于人類專家的回答。一項由墨爾本大學和西澳大利亞大學的研究團隊進行的研究，隨機選取了50個社會困境問題，然后邀請了404名志愿者進行盲測，

12-26

微軟必應聊天全新升級：GPT-4 Turbo模型免費體驗

12月25日消息，近期有來自Windowslatest的報道稱，微軟在其必應聊天服務中引入了基于OpenAI最新技術的GPT-4 Turbo模型，目前該模型已向一些隨機選中的用戶無償開放。這一升級旨在提供一個更加智能、流暢且有趣的對話體驗。同時，微軟也在計劃對必應聊

12-25

蘋果發布開源多模態LLM Ferret，意外加入人工智能社區

12月25日消息，蘋果公司與哥倫比亞大學的研究團隊于2023年10月發布了一款名為Ferret(雪貂)的多模態開源LLM，然而，當時這一新聞并未引起廣泛的注意。許多人工智能領域的從業者錯過了Ferret的發布，他們對蘋果進入開源LLM領域感到意外，尤其考慮到蘋果

12-25

OpenAI宣布GPT-5即將來襲：2024年技術大藍圖揭曉

12月25日消息，OpenAI的聯合創始人兼CEO Sam Altman近日宣布了一項令人振奮的消息：GPT-5即將到來!在一個充滿期待的聲明中，Altman揭露了OpenAI對2024年的宏大藍圖，它不僅包括了備受矚目的GPT-5的推出，而且還涉及了一系列創新的提升和擴展計劃。這

12-25

點擊查看更多 +

全站最新

小米科技再顯創新力，連續注冊多個重磅商標并研發出環保泰坦合金

鴻蒙智行社區發布智界S7關愛補貼計劃，回饋特定用戶群體

深藍G318全新SUV曝光，預計30萬起售，配備增程式動力及拖掛資質

預售倒計時！東風日產探陸攜7座6座布局，或成家庭出行新寵

數字賦能提速增效柯尼卡美能達為法院/律所行業注入智慧辦公新動能

鴻蒙新篇章：華為深圳舉辦千帆啟航儀式，原生應用全面鋪開

熱門內容

ChatGPT免費語音功能全面開放：解鎖AI與用戶的自然對話
微軟必應聊天全新升級：GPT-4 Turbo模型免費體驗
微軟 Edge 重塑身份，全新命名為“微軟 Edge：AI 瀏覽器”
LG推出創新雙輪腿智能家居AI機器人，CES 2024引領未來家居革命
微軟AI Copilot與Suno合作：文字變成音樂的魔法
谷歌發布全新AI SDK，助力Android應用集成Gemini Pro模型
Microsoft Copilot 即將推出置頂聊天對話功能：最多置頂 15 條
OpenAI宣布GPT-5即將來襲：2024年技術大藍圖揭曉
人工智能勝過人類？研究揭示ChatGPT的優勢
蘋果發布開源多模態LLM Ferret，意外加入人工智能社區
Stability AI 推出會員訂閱計劃，Stable Diffusion 模型全面升級
國家大模型標準測試首批通過名單揭曉，阿里通義千問與騰訊混元領銜
OpenAI出價百萬美元求新聞授權，小型出版商不買賬
OpenAI推出ChatGPT Team訂閱服務
提示詞工程：人工智能時代的關鍵技能與人際溝通的融合

本欄最新

CES 2024新奇發現：AI音樂為狗狗減壓，每月僅需48元

沃爾瑪在CES 2024宣布與微軟合作，以AI技術重塑數字購物體驗

OpenAI推出ChatGPT Team訂閱服務

OpenAI出價百萬美元求新聞授權，小型出版商不買賬

微軟 Edge 重塑身份，全新命名為“微軟 Edge：AI 瀏覽器”

英偉達斥巨資鎖定HBM3內存供應，確保AI與HPC GPU穩定推出

本文鏈接：http://www.tebozhan.com/showinfo-45-3283-0.html谷歌推出“BIG-Bench Mistake”數據集，助力語言模型糾錯能力提升

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：酷冷至尊CES 2024創新展示：雙風扇顛覆顯卡散熱市場

下一篇：手回科技集團榮登甪端企業20榜單，用科技力量賦能保險生態

標簽：

熱門焦點

元宇宙里掀起回憶殺？這波虛擬懷舊營銷主打一個極限反差

來源：首席品牌官從被稱為“元宇宙元年”的2021年開始，幾乎所有品牌都在迫不及待地“入駐”元宇宙。而一提及品牌們的元宇宙玩法，相信多數人腦海里首先浮現
數字人的新革命，BAT的“沖高”戰場

來源：劉曠ChatGPT橫空出世，讓人們看到了數字人的另一種可能，將ChatGPT與虛擬數字人融合，研發出更加智能化、擬人化的虛擬數字人成為數字人廠商的新命題、新方向。2月份，嶺南股份
元宇宙火熱的當下，我們該如何“身臨其境”的體驗元宇宙？

元宇宙的余熱依然沒有過去，甚至大有星星之火開啟燎原之勢，元宇宙本身也從殿堂走向了民間，我們可以看到一些企業開始了元宇宙的探索，諸如中國電信全資控股子公司天
韓國主權基金增加對硅谷初創公司投資押注元宇宙和人工智能

韓國投資公司(KIC)CEO Seoungho Jin預計，該公司在舊金山的辦事處今年將擴招人手，探索在硅谷投資科技、健康和綠色項目。規模高達2000億美元的韓國主權財富基金—
英特爾首款加密芯片將于今年上市｜國際動態

No.1 英特爾首款加密芯片將于今年上市2月13日消息，英特爾首款名為“區塊鏈加速器”的加密芯片將于今年晚些時候上市。目前，已經有兩家公司預訂了這項技術，分別是G
Meta展示AI系統Builder Bot；《Pistol Whip》增加派對模式

今日熱點：Meta展示AI系統Builder Bot；招聘信息顯示Meta正在探索具有蜂窩連接功能的VR/AR頭顯；英國VR工作室Coatsink Games正在為PSVR 2開發新游戲；VR節奏射擊游戲
Meta正在研發元宇宙語音助手；廣東省462家企業申請元宇宙商標

今日《元宇宙新鮮事》有：扎克伯格透露正在為元宇宙研發語音助手；完美世界聲明稱不會以“元宇宙投資項目”等名義吸收資金。廣東省申請元宇宙商標的企業達462家位
借VR產業東風，江西搶灘布局“元宇宙”

自2016年起就在VR上傾注了大量精力的江西省，迅速搭上了“元宇宙”。VR、AR等技術是通往元宇宙的關鍵接口，使人們可以在數字空間和物理空間自由穿梭。自2016年起
售出6930萬美元的NFT已經過去一年，NFT如今是否已成為主流？

Everydays: the First 5000 Days/Beeple去年三月，一件藝術品被著名拍賣行佳士得以6930萬美元的高價售出。而讓人們感到震驚的是，這個拍賣作品不是出自哪位藝術大

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

谷歌推出“BIG-Bench Mistake”數據集，助力語言模型糾錯能力提升

元宇宙里掀起回憶殺？這波虛擬懷舊營銷主打一個極限反差

數字人的新革命，BAT的“沖高”戰場

元宇宙火熱的當下，我們該如何“身臨其境”的體驗元宇宙？

韓國主權基金增加對硅谷初創公司投資押注元宇宙和人工智能

英特爾首款加密芯片將于今年上市｜國際動態

Meta展示AI系統Builder Bot；《Pistol Whip》增加派對模式

Meta正在研發元宇宙語音助手；廣東省462家企業申請元宇宙商標

借VR產業東風，江西搶灘布局“元宇宙”

售出6930萬美元的NFT已經過去一年，NFT如今是否已成為主流？

最新推薦

元宇宙火熱的當下，我們該如何“身臨其境”的體驗元宇宙？

英特爾首款加密芯片將于今年上市｜國際動態

冰墩墩NFT遇冷，價格跌80%，日成交僅3筆。

超級碗的加密時刻：是主流信號還是“網絡超級碗2.0”？

Meta正在研發元宇宙語音助手；廣東省462家企業申請元宇宙商標

藝術創作者能否永久收取版稅？

猜你喜歡

熱門推薦

相關資訊