當前位置：首頁 > 元宇宙 > AI

OpenAI GPT-5 編程成績有貓膩：自刪 23 道測試題，關鍵基準還是自己提的

來源：責編：時間：2025-08-14 10:20:17 10觀看

導讀別急著用 GPT-5 編程了，可能它能力沒有你想象中那么強。有人發現，官方測試編程能力用的 SWE-bench Verified，但貨不對板，只用了 477 個問題。什么意思呢？我們知道，SWE-bench 是評估模型 / 智能體自主編程能力的一個

別急著用 GPT-5 編程了，可能它能力沒有你想象中那么強。

有人發現，官方測試編程能力用的 SWE-bench Verified，但貨不對板，只用了 477 個問題。

什么意思呢？我們知道，SWE-bench 是評估模型 / 智能體自主編程能力的一個通用且常用的指標。而 SWE-bench Verified 作為它的子集，本來一共有 500 個問題。

現在相當于 OpenAI 自行省略的那 23 個問題，自己搞了個子集的“子集”來評估模型能力。

而如果這些題默認零分，那么得分實際上是比 Claude Opus 4.1 還要低的。因為現在僅有 0.4% 的差距。

OpenAI 這種自行忽略 23 道題的操作，已經不是第一次了。

早在 GPT-4.1 發布時就信誓旦旦地說，之所以忽略是因為這些問題的解決方案無法在他們的基礎設施運行。

離譜了朋友們！要知道 SWE-bench Verified 這個 OpenAI 自己提的，理由也是因為 SWE-bench 無法系統評估模型的編程能力，所以決定自己再提煉一個子集。

現在又因為測試題無法正常運行，所以自行又搞了個子集的“子集”。

本來以為 GPT-5 直播里出現圖表錯誤已經夠離譜了，結果現在告訴我這里面的成績可能還有假？

OpenAI 一直省略 23 個問題

已經開始有網友發現，GPT-5 能力并不比 Claude 4.1 Opus 好多少。

現在來看，這個官方給的結果或許根本沒有參考價值。

網友們除了自行忽略部分測試題，“偽造了結果”這一發現外，還發現，他們是將具有最大思維努力的 GPT-5 與沒有擴展思維僅靠原始模型輸出的 Opus 4.1 進行比較。這種比較實際上沒有參考意義。

而他們之所以只使用 477 個問題來測試，理由也跟 GPT-4.1 發布時一樣，因為他們內部的基礎設施運行不了剩下的 23 個問題。

今年 4 月份發布 GPT-4.1 時，在同一基準僅使用 477 個問題下得得分在 54.6%。

當時官方還指出，如果保守地將這些問題的得分定為 0，那么 54.6% 的得分就變成了 52.1%。即便是這樣，這個數值放在當時也是最高的。

而 Anthropic 這邊，其實也已經發現了 OpenAI 這個操作。

就在 Claude Opus 4.1 發布公布編程成績之時，在文章的末尾有這么一句話。

對于 Claude 4 系列模型，他們繼續使用相同的簡單框架，該框架僅為模型配備了兩種工具 —— 一個 Bash 工具和一個通過字符串替換進行文件編輯的工具，并且不再包含 Claude 3.7 Sonnet 中使用的第三個“規劃工具”。

并在最后注明：在所有 Claude 4 模型中，他們報告的分數基于完整的 500 個問題。OpenAI 模型的得分基于 477 道問題的子集進行報告。

基準還是 OpenAI 自己提的

如果說，SWE-bench Verified 還是 OpenAI 自己提的基準，那這件事就更離譜了。

這不就相當于自己搬起石頭砸自己的腳啦嘛。

當時啊還是因為類似的原因 —— 他們測試發現 SWE-bench 的一些任務可能難以解決甚至無法解決，導致 SWE-bench 無法系統性評估模型的自主編程能力。

于是乎，他們決定與 SWE-bench 的作者合作，決定弄出個新版本，希望能夠提供更準確的評估。

他們共同發起了一項人工注釋活動，共有 93 位資深程序員參與進來，以篩選 SWE-bench 測試集每個樣本，從而獲得適當范圍的單元測試和明確指定的問題描述。

他們隨機抽取了 1699 個樣本，然后基于統一標準來進行標注。

比如，問題描述是否明確？每個注釋都有一個標簽，范圍從 [0, 1, 2, 3]，嚴重程度依次遞增。

標簽 0 和 1 表示輕微；標簽 2 和 3 表示嚴重，表示樣本在某些方面存在缺陷，應予以丟棄。

此外，我們還會評估每個示例的難度，方法是讓注釋者估算開發人員確定并實現解決方案所需的時間。

最終得到了 500 個經過驗證的樣本，并且按照難度對數據集進行細分。“簡單”子集包含 196 個小于 15 分鐘的修復任務，而“困難”子集包含 45 個大于 1 小時的任務。

結果現在這個子集又被 OpenAI 縮減了。

One More Thing

不過，還是有個總榜單或許值得參考，就是那個最原始的 SWE-bench。

在這個榜單中，Claude 4 Opus 還是占據著領先位置。

GPT-5 也已經發過好一陣了，不知道你有沒有這樣類似的編程體驗呀？歡迎在評論區與我們分享。

參考鏈接：

[1]https://www.swebench.com/

[2]https://openai.com/index/introducing-gpt-5/

[3]https://www.anthropic.com/news/claude-opus-4-1

[4]https://x.com/SemiAnalysis_/status/1955028150217478177

[5]https://x.com/DavidOndrej1/status/1954158161721487482

本文來自微信公眾號：量子位（ID：QbitAI），作者：白交，原標題《GPT-5 編程成績有貓膩！自刪 23 道測試題，關鍵基準還是自己提的》

本文鏈接：http://www.tebozhan.com/showinfo-45-26086-0.htmlOpenAI GPT-5 編程成績有貓膩：自刪 23 道測試題，關鍵基準還是自己提的

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：英特爾升級多顯卡 AI 推理，Battlematrix 整體性能最高提升 80%

下一篇：超 98% 參賽者：OpenAI 神秘 AI 模型首次斬獲信息學奧賽 IOI 2025 金牌

標簽：

熱門焦點

SQL Error: select * from ***_ecms_news13 where id in(95,47,,70,237,144,145,13,103) limit 9

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI GPT-5 編程成績有貓膩：自刪 23 道測試題，關鍵基準還是自己提的

最新推薦

ChatGPT訪問量增速下滑，AI真的是一場泡沫嗎？

亞馬遜AIGC全家桶來襲，巨頭AI大亂戰都有什么殺手锏

星展銀行(DBS)計劃推出零售數字資產交易服務

頂流IP“冰墩墩”帶著中國元素NFT進入全球視野

權限風波過后 X2Y2如何挑戰OpenSea？

MR——元宇宙平臺的下一代入口

猜你喜歡

熱門推薦

相關資訊