AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

OpenAI o3 模型基準測試成績遭質疑,實測分數遠不及宣稱

來源: 責編: 時間:2025-04-23 10:26:33 75觀看
導讀 4 月 21 日消息,OpenAI 的 o3 人工智能模型的第一方與第三方基準測試結果存在顯著差異,引發了外界對其公司透明度和模型測試實踐的質疑。去年 12 月,OpenAI 首次發布 o3 模型時宣稱,該模型能夠在 FrontierMath 這

4 月 21 日消息,OpenAI 的 o3 人工智能模型的第一方與第三方基準測試結果存在顯著差異,引發了外界對其公司透明度和模型測試實踐的質疑。xIZ28資訊網——每日最新資訊28at.com

xIZ28資訊網——每日最新資訊28at.com

去年 12 月,OpenAI 首次發布 o3 模型時宣稱,該模型能夠在 FrontierMath 這一極具挑戰性的數學問題集上正確回答超過四分之一的問題。這一成績遠遠超過了競爭對手 —— 排名第二的模型僅能正確回答約 2% 的 FrontierMath 問題。OpenAI 首席研究官 Mark Chen 在直播中表示:“目前市場上所有其他產品在 FrontierMath 上的成績都不足 2%,而我們在內部測試中,使用 o3 模型在激進的測試時計算設置下,能夠達到超過 25% 的正確率。”xIZ28資訊網——每日最新資訊28at.com

然而,這一高分似乎是一個上限值,是通過一個計算資源更為強大的 o3 模型版本實現的,而并非是 OpenAI 上周公開發布的版本。負責 FrontierMath 的 Epoch 研究所于上周五公布了其對 o3 模型的獨立基準測試結果,發現 o3 的得分僅為約 10%,遠低于 OpenAI 此前聲稱的最高分數。xIZ28資訊網——每日最新資訊28at.com

xIZ28資訊網——每日最新資訊28at.com

這并不意味著 OpenAI 故意撒謊,該公司在 12 月份公布的基準測試結果中也包含了一個與 Epoch 測試結果相符的較低分數。Epoch 還指出,其測試設置可能與 OpenAI 有所不同,并且其評估使用了更新版本的 FrontierMath。Epoch 在報告中寫道:“我們與 OpenAI 的結果差異可能是因為 OpenAI 在內部評估時使用了更強大的計算框架、更多的測試時計算資源,或者是因為這些結果是在 FrontierMath 的不同子集上運行的(例如 2024 年 11 月 26 日版本的 180 個問題與 2025 年 2 月 28 日私有版本的 290 個問題)。”xIZ28資訊網——每日最新資訊28at.com

此外,ARC Prize 基金會(一個測試了 o3 預發布版本的組織)在 X 平臺上發布消息表示,公開發布的 o3 模型是一個“針對聊天 / 產品使用進行了調整的不同模型”,這進一步證實了 Epoch 的報告。ARC Prize 還指出:“所有發布的 o3 計算層級都比我們測試的版本要小。”一般來說,更大的計算層級通常可以獲得更好的基準測試分數。xIZ28資訊網——每日最新資訊28at.com

值得注意的是,盡管公開版本的 o3 未能完全達到 OpenAI 測試時的表現,但這在一定程度上已不再是關鍵問題,因為該公司后續推出的 o3-mini-high 和 o4-mini 模型在 FrontierMath 上的表現已經優于 o3。此外,OpenAI 計劃在未來幾周內推出更強大的 o3 版本 o3-pro。xIZ28資訊網——每日最新資訊28at.com

然而,此事再次提醒人們,人工智能基準測試結果最好不要完全照單全收,尤其是當結果來自一家有產品需要銷售的公司時。隨著人工智能行業競爭的加劇,各供應商紛紛急于通過推出新模型來吸引眼球和市場份額,基準測試“爭議”正變得越來越常見。xIZ28資訊網——每日最新資訊28at.com

注意到,今年 1 月,Epoch 因在 OpenAI 宣布 o3 之后才披露其從 OpenAI 獲得的資金支持而受到批評。許多為 FrontierMath 做出貢獻的學者直到公開時才知道 OpenAI 的參與。最近,埃隆?馬斯克的 xAI 被指控為其最新的人工智能模型 Grok 3 發布了誤導性的基準測試圖表。就在本月,Meta 也承認其宣傳的基準測試分數所基于的模型版本與提供給開發者的版本不一致。xIZ28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-12493-0.htmlOpenAI o3 模型基準測試成績遭質疑,實測分數遠不及宣稱

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 天工機器人:人形機器人即將實現小批量量產,未來售價可與入門轎車相當

下一篇: 湖北武漢警方查處一起利用 AI 編造網絡謠言案件,涉事公司被行政警告

標簽:
  • 熱門焦點
  • 元宇宙終究沒火過兩年

    來源:傳播體操在ChatGPT快速破圈的同時,元宇宙的熱度卻一瀉千里。雖然互聯網大廠們都沒有否認元宇宙的長期想象力,但在行動上卻都紛紛表示了對元宇宙短期前景的悲觀。號稱改變
  • 數字虛擬人23年最新變化!

    作者:小資來源:米塔之家自2021年元宇宙“爆炸”后,作為現實世界連接元宇宙的媒介之一,大批虛擬人跑步入場。到了2022年底,據天眼查數據顯示,我國目前企業名稱或經營范圍
  • 元宇宙步入暗夜

    撰文 | 文燁豪元宇宙的故事,似乎講不通了。 當下,刮起元宇宙熱潮的Roblox股價已跌去大半,帶頭大哥Meta也正因元宇宙虧損深陷泥潭。 再看國內,從字節“派對島&
  • 搭上“谷愛凌”,“柳夜熙們”站上風口?

    作者:張琳 曹楊從“永不塌房”的藝人到頻頻亮相北京冬奧會,作為元宇宙細分賽道之一的虛擬數字人又火了一把。2月7日,即谷愛凌摘得冬奧會自由式滑雪大跳臺金牌的
  • 2022 區塊鏈 50 強榜單;垃圾NFT項目的十三個特性

    本期關鍵字TerraZero在Decentraland完成元宇宙住房抵押貸款;騰訊發行齊白石畫作數字藏品;Ripple成為數字歐元協會成員;Gem上線稀有度排名功能;2022 區塊鏈 50 強榜
  • 中國區塊鏈產業生態地圖報告(2021)

    區塊鏈是技術整合創新、金融創新、組織方式創新、產業應用創新的多維度創新,以服務實體經濟、政務民生以及公共服務等領域為落腳點,以期實現整個地區和產業的資
  • 2022年中國元宇宙系列報告:底層架構研究:虛擬引擎,擎動未來

    “虛擬引擎是元宇宙平臺搭建的基本工具。在這樣的條件下,虛擬引擎擁有了廣闊的市場空間。也需要虛擬引擎擁有擁有強大的處理能力,能夠高效快速的實現大量交互場
  • NFT領域,我們是否應該遵守版權法

    NFTs中最有爭議的因素之一是你是否真的 "擁有 "你所購買的藝術品。除此之外,圍繞著NFT行業內的版權和知識產權盜竊的問題也同樣重要,因為人們很容易誤解這些事情
  • 這個好萊塢影視制作公司涉足NFT,讓持有者在制作中發揮作用

    前米高梅首席執行官Roger Birnbaum和AOL的接班人Mark Kimsey成立了一個新的好萊塢工作室,提供 NFT,讓持有者在制作中發揮作用Electromagnetic Productions 創始

猜你喜歡

    SQL Error: select * from ***_ecms_news13 where id in(244,214,151,196,35,) limit 6
Top