當前位置：首頁 > 元宇宙 > AI

陶哲軒回應 OpenAI 新模型 IMO 奪金，GPT-5 測試版曝光

來源：責編：時間：2025-07-23 12:19:24 32觀看

導讀 OpenAI 最新模型曝光了，在 2025 年國際數學奧林匹克競賽（IMO）上達到了金牌水平！IMO 被公認為全球最頂尖的數學競賽，每年只有不到 8% 的參賽者能夠獲得金牌。而現在，一個 AI 模型做到了。新模型最終成績：新模型在總共

OpenAI 最新模型曝光了，在 2025 年國際數學奧林匹克競賽（IMO）上達到了金牌水平！

IMO 被公認為全球最頂尖的數學競賽，每年只有不到 8% 的參賽者能夠獲得金牌。而現在，一個 AI 模型做到了。

新模型最終成績：新模型在總共 6 道題中成功解決了 5 道，獲得 35 分（滿分 42 分），超過了今年的金牌線。

OpenAI 員工 Alexander Wei 還透露，GPT-5 即將發布，但 IMO 金牌模型是一個實驗性研究，在幾個月內都沒有計劃發布。

他特別強調，這次成功并非依靠針對特定任務的狹隘方法，而是在通用強化學習和測試時計算擴展方面取得了新突破。

與此同時，第三方機構的開源代碼中被發現 GPT-5-reasoning-alpha-2025-07-13 的字樣。

這段代碼被挖出來后很快就被刪除或隱藏，結合 OpenAI 在新模型發布前會找第三方機構進行安全測試的慣例 ——

種種跡象表明，GPT-5 離我們不遠了。

35 分斬獲金牌，解題過程完全模擬人類考試

具體來看 OpenAI 的實驗性新模型，這次評測可不是隨便做個題那么簡單。

OpenAI 團隊讓模型在與人類選手完全相同的條件下參加考試：兩場各 4.5 小時的考試，不能使用任何工具或聯網，只能閱讀官方題目陳述，然后用自然語言寫出證明過程。

最終成績出來了：模型在 6 道題中成功解決了 5 道，獲得 35 分（滿分 42 分），穩穩超過了今年的金牌線。

今年 IMO 的金牌分數線正好是 35 分，這個成績放在人類選手中也是妥妥的金牌水平。今年約 600 名參賽者中，只有 5 人拿到了滿分。

更讓人印象深刻的是評分過程的嚴謹性。每道題的解答都由三位前 IMO 獎牌獲得者獨立評分，只有在三人達成一致意見后才確定最終分數。

這次突破的意義不止于成績，正如研究團隊所說，IMO 問題需要的是一種全新水平的持續創造性思維。

從推理時間跨度來看，AI 的進步速度簡直讓人瞠目結舌：從 GSM8K（頂尖人類約需 0.1 分鐘）到 MATH 基準測試（約 1 分鐘），再到 AIME（約 10 分鐘），現在終于攻克了 IMO（約 100 分鐘）這個需要長時間深度思考的難題。

更重要的是，IMO 的答案是難以驗證的多頁證明，這與之前那些有明確正確答案的數學題完全不同。OpenAI 團隊表示，他們突破了傳統強化學習中依賴明確可驗證獎勵的范式，創造出了能夠像人類數學家一樣構建精巧論證的模型。

唯一沒能攻克的是第六題 —— 這道被參賽者稱為“最終 Boss”的組合數學難題：

有一個 2025×2025 的單位正方形網格。瑪蒂爾達希望在網格上放置一些矩形塊，這些塊的大小可能不同，使得每個塊的每一條邊都位于網格線上，并且每個單位正方形最多被一個塊覆蓋。求瑪蒂爾達需要放置的最小塊數，使得網格的每一行和每一列都恰好有一個單位正方形未被任何塊覆蓋。

去年 IMO 題目中，谷歌用 Alphaproof 和 AlphaGeometry 完成了四道題，未完成的兩道也屬于組合數學。

不過這一次，DeepMind 研究員 Archit Sharma 在 OpenAI 宣布后回復：“恭喜！搶在我們前面宣布了 —— 第 6 題是新的基準了嗎？”

但這條推文很快就被刪除了。

這個小插曲引發了網友們的各種猜測：莫非 Google 的模型也達到了類似水平。

如果感興趣的話，還可以進一步查看 OpenAI 公開的 AI 解題過程，鏈接在文末獲取。

引發圈內熱議，陶哲軒發表長評

OpenAI 模型斬獲 IMO 金牌的消息一出，AI 圈炸開了鍋。不過，在一片贊嘆聲中，也出現了一些不同的聲音。

其中最受關注的，當屬數學界頂尖學者陶哲軒的表態，他在社交媒體上針對此事發表了長篇評論。

陶哲軒指出，雖然多家 AI 公司都聲稱在 IMO 題目上取得了好成績，但由于缺乏統一的測試環境和標準，很難進行公平比較。

人們很容易將當前 AI 的能力視為一個單一的量化指標 —— 要么能搞定某件事，要么就完全不行。但其實不是這樣，AI 到底有多厲害，這得看給它多少資源、多少輔助手段以及不同的結果呈現方式，種種因素影響下，AI 能力能差出好幾個量級。

他特別強調：“在沒有預先公布方法論的情況下，不會對任何自我報告的 AI 競賽表現發表評論。”

陶哲軒用生動的比喻列舉了多項 AI 可能采取的措施：

給學生幾天時間來完成每道題，而非用四個半小時解答三道題。（稍微延伸一下：給學生的時間仍只有四個半小時，但領隊將他們放入某種昂貴且耗能巨大的時間加速裝置，在這段時間里，學生們會經歷數月甚至數年的時光。）

考試開始前，領隊將題目改寫成學生更易理解的形式。

領隊讓學生可以無限制使用計算器、計算機代數軟件、形式化證明輔助工具、教科書，或者擁有上網搜索的權限

領隊讓 6 名學生組成的團隊共同攻關同一道題，就各自的部分進展和遇到的瓶頸進行交流。

領隊給學生提示可行的解題方向，若發現有學生在明知不太可能成功的方向上耗費過多時間，便會進行干預。

團隊的 6 名學生都提交了解答，但領隊只挑選出“最佳”解答提交給競賽，其余的則棄之不用。

若團隊中沒有任何一名學生得出令人滿意的解答，領隊就完全不提交任何解答，悄無聲息地退出競賽，且無人知曉他們曾參與過。

而這些措施均改變了競賽形式從而影響題目難度。

與此同時，數學競賽評測平臺 MathArena 發布了獨立評測結果。

在他們的測試中，即使是表現最好的 Gemini 2.5 Pro 也只獲得了 13 分（31%），遠低于銅牌線 19 分。

測試使用了 best-of-32 的選擇策略，即對于每個模型的解答，首先生成 32 份回應，隨后借助“大語言模型評審系統”對這些回應進行評估，兩兩比對選出更優答案。

每份最終的模型答案生成成本至少為 3 美元，其中 Grok-4 模型每份答案的成本超過 20 美元，但即便如此，仍然沒有任何模型能達到獲獎牌的水平。

MathArena 團隊也同步更新了 OpenAI 宣布實驗模型拿到 IMO 金牌的消息：

無法驗證這些結果是如何實現，期待該模型的發布以及使用 MathArena 基準進行獨立評估。

雖然 OpenAI 模型拿金牌的方法論未公開，但也有不少網友表示，不看過程，結果同樣具有意義。

OpenAI 團隊對自己的成果充滿信心。

參與此項目的研究員 Alexander Wei 回憶說：“2021 年，我的博士導師讓我預測 2025 年 7 月 AI 在數學上的進展，我當時預測 MATH 基準測試能達到 30%（還覺得其他人都太樂觀了）。結果現在我們拿到了 IMO 金牌。”

OpenAI 新模型解題過程：

https://github.com/aw31/openai-imo-2025-proofs/

參考鏈接：

[1]https://twitter.com/alexwei_/status/1946477742855532918

[2]https://x.com/btibor91/status/1946532308896628748

[3]https://social.vivaldi.net/@tao@mathstodon.xyz/114881418791593328

[4]https://www.reddit.com/r/singularity/comments/1m43gar/looks_like_deepmind_has_also_won_imo_gold_but/

[5]https://matharena.ai/imo

本文來自微信公眾號：量子位（ID：QbitAI），作者：夢晨、西風，原標題《陶哲軒回應 OpenAI 新模型 IMO 奪金！GPT-5 測試版也曝光了》

本文鏈接：http://www.tebozhan.com/showinfo-45-14791-0.html陶哲軒回應 OpenAI 新模型 IMO 奪金，GPT-5 測試版曝光

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：英偉達推出 OpenReasoning-Nemotron 推理模型，普通游戲電腦也能玩轉高級推理

下一篇：馬斯克宣布將推出兒童版 AI 應用“Baby Grok”，暫未披露功能細節

標簽：

熱門焦點

保時捷推出虛擬超跑，車企元宇宙營銷這么香？

保時捷又出超跑了，不過這次不是在現實世界，而是在虛擬世界。這款Vision Gran Turismo概念車，由保時捷和日本視頻游戲開發工作室Polyphony Digital聯合打造，將于202
“元宇宙”里過大年，《迷你世界》在做一場怎樣的實驗？

2021年是游戲行業不確定性急劇上升的一年。一方面游戲正風光無限，騰訊等大廠更加密集地投資動作，讓游戲創投市場異常火熱，"元宇宙"概念的大放異彩，更是吸引了Netfl
“虛擬人”角斗場，基于“硬實力”下的人性平衡法則？

在打工人“反內卷”的當下，一眾虛擬人卻“內卷”了起來。從北京春晚虛擬人蘇小妹與劉宇演繹歌舞《星河入夢》，央美畢業的虛擬人夏語冰登上央視節目《對話》，湖南
Meta證實Quest 2無法實現全身追蹤，未來將為虛擬化身配備“假腿”

上周，外媒UploadVR在Quest 2開發者文檔中發現了從未被公布過的“身體追蹤支持”選項，暗示Meta VR頭顯或支持全身追蹤。而在最近的Instagram問答環節中，Meta Reali
《刀劍神域》VR展開幕；《Puzzling Places》發布第二個付費DLC

今日熱點：《刀劍神域：Ex-Chronicle Online Edition》VR展開幕；虛擬活動平臺EventX再獲800萬美元B輪融資；VR射擊游戲《Outlier》確認將于3月17日登陸Steam平臺等。
從NFT頂級公鏈到Web3.0基礎設施：帶你了解不一樣的Flow

對于大部分年輕人來說，剛剛過去的春節有一個詞語突然成為了品牌宣傳的流行語，作為從NFT中衍生出來的“數字藏品”一時間獲得了不少品牌青睞，他們紛紛推出自己的數
韓國建立元宇宙生態系統，智度股份發布元宇宙社區Meta彼岸

財聯社|區塊鏈日報28日訊今日《元宇宙新鮮事》有：杭州第十三次黨代會報告指出抓緊布局元宇宙等未來產業；韓國科學信息通信技術部宣布投資1.85億美元建立元宇宙
元宇宙風歸何處？

元宇宙持續大火，在過去一段時間內，其屢次登上熱點，吸引了一波又一波投資者。近期，在“2022中國·金魚嘴元宇宙生態賦能大會”上，南京建鄴區金魚嘴基金街區宣布計劃
以太坊面臨來自Fantom的巨大挑戰

眾所周知，區塊鏈和加密貨幣項目經常因其對環境的影響而受到批評。但是有一個非營利性的加密貨幣和區塊鏈項目說它比其他的更環保。今天老雅痞就給大家聊一聊加

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

陶哲軒回應 OpenAI 新模型 IMO 奪金，GPT-5 測試版曝光

保時捷推出虛擬超跑，車企元宇宙營銷這么香？

“元宇宙”里過大年，《迷你世界》在做一場怎樣的實驗？

“虛擬人”角斗場，基于“硬實力”下的人性平衡法則？

Meta證實Quest 2無法實現全身追蹤，未來將為虛擬化身配備“假腿”

《刀劍神域》VR展開幕；《Puzzling Places》發布第二個付費DLC

從NFT頂級公鏈到Web3.0基礎設施：帶你了解不一樣的Flow

韓國建立元宇宙生態系統，智度股份發布元宇宙社區Meta彼岸

元宇宙風歸何處？

以太坊面臨來自Fantom的巨大挑戰

最新推薦

AI大模型“戰火”燒到了教育領域

大廠元宇宙，又菜又愛玩

英特爾首款加密芯片將于今年上市｜國際動態

元宇宙“概念股”集體崩塌，背后究竟發生了什么？

知識產權可能在元宇宙中“消失”？

多位全國政協委員提交元宇宙提案，國金證券稱元宇宙仍處初期投資階段

猜你喜歡

熱門推薦

相關資訊