1 月 24 日消息,非營利組織“人工智能安全中心”(CAIS)與提供數據標注和 AI 開發服務的公司 Scale AI 聯合推出了一個名為“人類終極考試”(Humanity's Last Exam)的新型基準測試,旨在評估前沿 AI 系統的綜合能力。這一測試因其極高的難度引起關注。
據了解,該基準測試包含來自50個國家 / 地區500多個機構的近1,000名學科專家撰稿人提出問題,這些專家主要由教授、研究人員和研究生學位持有者組成,涵蓋數學、人文學科和自然科學等多個領域。為增加測試的挑戰性,題目形式多樣,包括結合圖表和圖像的復雜題型。這種設計旨在全面考察 AI 系統在跨學科知識和多模態信息處理方面的能力。
在初步研究中,所有公開可用的旗艦 AI 系統在該測試中的回答準確率均未超過 10%。這一結果表明,盡管當前 AI 技術在特定領域已取得顯著進展,但在應對復雜、綜合性的問題時仍存在明顯短板。
CAIS 和 Scale AI 表示,他們計劃將這一基準測試向研究社區開放,以便研究人員能夠“深入挖掘差異”并評估新開發的 AI 模型。
本文鏈接:http://www.tebozhan.com/showinfo-45-10176-0.html“人類終極考試”基準測試發布:頂級 AI 系統表現慘淡,回答準確率均未超 10%
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com