當前位置：首頁 > 元宇宙 > AI

OpenAI o3 碾壓式 AI 數學成績遭質疑：既當選手又是裁判，翻版 Theranos 世紀騙局

來源：責編：時間：2025-01-21 12:16:25 93觀看

導讀 1 月 20 日消息，科技媒體 TechCrunch 昨日（1 月 19 日）發布博文，報道稱 Epoch AI 因未及時披露 OpenAI 的資助而引發爭議，其開發的數學基準測試 FrontierMath 的客觀性受到質疑。簡要介紹下 Epoch AI 組織，是主要由

1 月 20 日消息，科技媒體 TechCrunch 昨日（1 月 19 日）發布博文，報道稱 Epoch AI 因未及時披露 OpenAI 的資助而引發爭議，其開發的數學基準測試 FrontierMath 的客觀性受到質疑。

簡要介紹下 Epoch AI 組織，是主要由 Open Philanthropy 資助的非營利組織。該組織推出了 FrontierMath 基準測試，通過整合專家級數學問題，衡量和測試 AI 模型的數學能力。

OpenAI 的 o3 模型在 EpochAI 的 FrontierMath 基準測試中，以碾壓式優勢傲視其它模型，準確率高達 25%，而其他模型得分在 2% 左右。

Epoch AI 的一位承包商“Meemi”在 LessWrong 論壇上發帖稱，許多 FrontierMath 的貢獻者直到公開宣布時才知道 OpenAI 參與了該基準搭建。

Meemi 寫道：“溝通完全不透明。我認為 Epoch AI 應該披露 OpenAI 的資助，承包商在選擇是否參與基準測試工作時，應該獲得關于其工作成果可能被用于能力提升的透明信息。”

六位參與 FrontierMath 基準測試設計的數學家表示，他們并不知道 OpenAI 擁有獨家訪問權限。如果事先知道，他們可能不會參與。

一些社交媒體用戶擔心，這種保密行為可能會損害 FrontierMath 作為客觀基準的聲譽。除了資助 FrontierMath 之外，OpenAI 還可以訪問該基準測試中的許多問題和解決方案 ——Epoch AI 在 12 月 20 日 o3 發布之前并未透露這一事實。

Epoch AI 副主任兼聯合創始人之一 Tamay Besiroglu 在回復 Meemi 的帖子時堅稱，FrontierMath 的完整性沒有受到損害，但也承認 Epoch AI 在未能更加透明方面“犯了一個錯誤”。

AI 專家 Gary Marcus 質疑 OpenAI 的聲明，將此事件與 Theranos 丑聞相提并論。注：該丑聞是由伊麗莎白?霍爾姆斯創立的血液檢測公司 Theranos 的欺詐事件，該公司聲稱其技術只需幾滴血就能進行數百項檢測，但最后謊言被揭穿，公司最終倒閉，霍爾姆斯也被判犯有欺詐罪。

Besiroglu 承認 OpenAI 可以訪問 FrontierMath 的大部分問題和答案，但有一個“OpenAI 未見過的保留數據集”用于驗證模型的能力。

Besiroglu 寫道

我們被限制在 o3 發布前后才能披露合作關系，事后看來，我們應該更努力地爭取盡快對基準測試貢獻者保持透明。我們的數學家應該知道誰可以訪問他們的工作。即使我們在合同上受到限制，我們也應該讓與貢獻者的透明度成為我們與 OpenAI 協議中不可協商的一部分。

本文鏈接：http://www.tebozhan.com/showinfo-45-9485-0.htmlOpenAI o3 碾壓式 AI 數學成績遭質疑：既當選手又是裁判，翻版 Theranos 世紀騙局

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：深夜突發！光刻機巨頭傳出大消息！

下一篇：阿斯麥財報誤發，半導體板塊驚起一片漣漪？

標簽：

熱門焦點

從虛擬餐廳到虛擬時裝秀，行業巨頭掀起元宇宙商標注冊潮

自從 Facebook 更名為 Meta 后，關于元宇宙的討論愈發激烈，這一詞匯也越來越多的出現在我們的視野里。這是一個非常有趣的話題。伴隨著爭論，有些人認為是馬克·扎
元宇宙是數字共識生態的集成邏輯表達

作者: 李鳴元宇宙是數字共識生態的集成邏輯表達，是以區塊鏈技術為核心的可信數字化價值交互網絡，是基于Web3.0技術體系和運作機制支撐下的數字新生態。本體論是
數字經濟、數據要素與數字治理

深入理解數字經濟與數據要素，有利于更準確理解和把握數字治理的基本規律，構建面向未來的健康的數字治理體系，也才能更好地理解元宇宙的治理框架。一、數字經濟
Interface正大光明的“跑路”，社區成員贊格局大

今日凌晨，一個廣泛受社區期待的潛力藍籌項目Interfaces突然發文宣布項目停止運營，后續也不會有鑄造NFT系列的活動。這對社區來說就是一重磅炸彈，大多數人完全不明
盤點9個主流元宇宙平臺，你都知道哪些？

隨著NFT的持續升溫，它也加入了現在的元宇宙浪潮。本文介紹元宇宙的基本概念以及九個最流行的元宇宙NFT平臺，如Decentraland、sandbox等。用熟悉的語言學習以太
趙長鵬預測SoicalFi為今年主要驅動力，新的機會在哪里？

作者：五火球教主前不久，趙長鵬在《財富》雜志印度版塊刊登評論。他表示：“DeFi 在 2021 年出現了快速創新，我們可能會在 2022 年看到蓬勃發展的興趣和創新，其中 Soc
元宇宙平臺會是上世紀末的互聯網嗎？

“元宇宙”火了好幾個月，互聯網大廠忙于布局，資本市場熱烈追捧。然而很多人還是看不明白，更多的人覺得這是一場泡沫，一場騙局。一開始接觸這個怪里怪氣的名詞，感覺
76億美金估值、2022年最具創新力公司，Dapper Labs如何做到？

“元宇宙的開拓者”是我們針對元宇宙的發展而設立的專欄，主要面向那些深挖元宇宙產業或者在元宇宙進行“淘金”的從業者，分享這些企業或者創業者們的故事，以獨特
售出6930萬美元的NFT已經過去一年，NFT如今是否已成為主流？

Everydays: the First 5000 Days/Beeple去年三月，一件藝術品被著名拍賣行佳士得以6930萬美元的高價售出。而讓人們感到震驚的是，這個拍賣作品不是出自哪位藝術大

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI o3 碾壓式 AI 數學成績遭質疑：既當選手又是裁判，翻版 Theranos 世紀騙局

從虛擬餐廳到虛擬時裝秀，行業巨頭掀起元宇宙商標注冊潮

元宇宙是數字共識生態的集成邏輯表達

數字經濟、數據要素與數字治理

Interface正大光明的“跑路”，社區成員贊格局大

盤點9個主流元宇宙平臺，你都知道哪些？

趙長鵬預測SoicalFi為今年主要驅動力，新的機會在哪里？

元宇宙平臺會是上世紀末的互聯網嗎？

76億美金估值、2022年最具創新力公司，Dapper Labs如何做到？

售出6930萬美元的NFT已經過去一年，NFT如今是否已成為主流？

最新推薦

AI大模型“戰火”燒到了教育領域

中國銀保監管委提示：謹慎投資，勿做接盤俠

影響元宇宙土地價格的五個因素

紐約證券交易所母公司ICE收購tZero股份以探索代幣化股票

元宇宙風歸何處？

音樂家如何利用NFTs來提高歌迷參與度

猜你喜歡

熱門推薦

相關資訊