當前位置：首頁 > 元宇宙 > AI

“人類終極考試”基準測試發布：頂級 AI 系統表現慘淡，回答準確率均未超 10%

來源：責編：時間：2025-01-27 09:27:02 73觀看

導讀 1 月 24 日消息，非營利組織“人工智能安全中心”（CAIS）與提供數據標注和 AI 開發服務的公司 Scale AI 聯合推出了一個名為“人類終極考試”（Humanity's Last Exam）的新型基準測試，旨在評估前沿 AI 系統的綜合能力。

1 月 24 日消息，非營利組織“人工智能安全中心”（CAIS）與提供數據標注和 AI 開發服務的公司 Scale AI 聯合推出了一個名為“人類終極考試”（Humanity's Last Exam）的新型基準測試，旨在評估前沿 AI 系統的綜合能力。這一測試因其極高的難度引起關注。

據了解，該基準測試包含來自50個國家 / 地區500多個機構的近1,000名學科專家撰稿人提出問題，這些專家主要由教授、研究人員和研究生學位持有者組成，涵蓋數學、人文學科和自然科學等多個領域。為增加測試的挑戰性，題目形式多樣，包括結合圖表和圖像的復雜題型。這種設計旨在全面考察 AI 系統在跨學科知識和多模態信息處理方面的能力。

在初步研究中，所有公開可用的旗艦 AI 系統在該測試中的回答準確率均未超過 10%。這一結果表明，盡管當前 AI 技術在特定領域已取得顯著進展，但在應對復雜、綜合性的問題時仍存在明顯短板。

CAIS 和 Scale AI 表示，他們計劃將這一基準測試向研究社區開放，以便研究人員能夠“深入挖掘差異”并評估新開發的 AI 模型。

本文鏈接：http://www.tebozhan.com/showinfo-45-10176-0.html“人類終極考試”基準測試發布：頂級 AI 系統表現慘淡，回答準確率均未超 10%

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： OpenAI 首個智能體 Operator 測評，你也能擁有 24 小時私人管家

下一篇： Anthropic 發布 Citations API，迎戰 AI 信息來源驗證挑戰

標簽：

熱門焦點

“任何國產元宇宙都是假元宇宙”

上個月，華語樂壇的優質偶像之一，DOTA2資深玩家林俊杰，在國外元宇宙產品分布式大陸(Decentraland)上買了三塊虛擬地產，花了12.3萬美元（也就是人民幣接近80萬）。截至目
2022年最具關注的9個頭像NFT項目

什么是 PFP NFT 項目？PFP NFT （個人資料圖片NFT）是一組獨特的數字收藏品，人們用來在互聯網平臺上代表自己。這些數字藝術作品通常是一系列可作為頭像的角色，在 Twit
2022年中國元宇宙系列報告：底層架構研究：虛擬引擎，擎動未來

“虛擬引擎是元宇宙平臺搭建的基本工具。在這樣的條件下，虛擬引擎擁有了廣闊的市場空間。也需要虛擬引擎擁有擁有強大的處理能力，能夠高效快速的實現大量交互場
2022年的Web3：定義概念并開創新范式

Web3 是關于加密和區塊鏈應該如何使用的概念，因為它是加密圈的一個離散子領域。社區機會將呈指數級增長，擴大這些子行業的人口統計范圍。追求 Web3 項目的組織仍
從虛擬餐廳到虛擬時裝秀，行業巨頭掀起元宇宙商標注冊潮

自從 Facebook 更名為 Meta 后，關于元宇宙的討論愈發激烈，這一詞匯也越來越多的出現在我們的視野里。這是一個非常有趣的話題。伴隨著爭論，有些人認為是馬克·扎
從英式拍到荷蘭拍，看傳統金融拍賣玩法如何玩轉NFT市場交易

作者：魯拍賣是一種從古至今的商業活動。從古代的典當到現代的拍賣市場、我們熟知的拍賣行，以及知名街頭藝術家Bansky名畫拍賣成功后，竟自毀粉碎，現價值又翻倍的拍
NFT藝術家Hayley Rincon 專訪：我的迷幻數字藝術之路

Hayley Rincon是一位令人印象深刻才華橫溢的創作者，她的作品呈現出迷幻的氣息。今天就來聊聊她的藝術作品，和她自己的數字藝術之路。Hayley是加利福尼亞灣區的有
新聞業在元宇宙的現狀和未來

“美聯社有毛病吧，這真的過分了！”，一位媒體編輯在推特中憤怒地表示。這是針對一款視頻NFT的批評言論之一，之后取消了此次銷售，因為該視頻呈現了移民穿越地中海的苦
Staking 收益翻倍？

以太坊質押可能很快就會有兩倍的利潤。Coinbase 估計，在 1 月份以太坊網絡合并后，持有 ETH 的回報將翻倍。增長預期假設來自加密貨幣交易所 Coinbase 的估計是準

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

“人類終極考試”基準測試發布：頂級 AI 系統表現慘淡，回答準確率均未超 10%

“任何國產元宇宙都是假元宇宙”

2022年最具關注的9個頭像NFT項目

2022年中國元宇宙系列報告：底層架構研究：虛擬引擎，擎動未來

2022年的Web3：定義概念并開創新范式

從虛擬餐廳到虛擬時裝秀，行業巨頭掀起元宇宙商標注冊潮

從英式拍到荷蘭拍，看傳統金融拍賣玩法如何玩轉NFT市場交易

NFT藝術家Hayley Rincon 專訪：我的迷幻數字藝術之路

新聞業在元宇宙的現狀和未來

Staking 收益翻倍？

最新推薦

VR/AR迷失元宇宙“硝煙”

游戲玩家才是最“元宇宙”的

從4個方面解析2022年加密行業趨勢

花旗集團前高管加入Provenance區塊鏈，擔任CEO

初探元宇宙

在互聯網考古后，我被豆瓣上這座元宇宙古城征服了

猜你喜歡

熱門推薦

相關資訊

“人類終極考試”基準測試發布：頂級 AI 系統表現慘淡，回答準確率均未超 10%

最新推薦

猜你喜歡

熱門推薦

相關資訊

“人類終極考試”基準測試發布：頂級 AI 系統表現慘淡，回答準確率均未超 10%