當前位置：首頁 > 科技 > 網絡

OpenAI并未讓DeepSeek驚出一身冷汗

來源：責編：時間：2025-04-18 06:48:34 118觀看

導讀 “OpenAI的創新好像到瓶頸期了。”一位業界人士這樣說道。今日凌晨，預熱了很久的OpenAI o3模型完整版終于面世，且與以往直播“擠牙膏”式的依次、慢吞發布方式不同的是，這次o3和o4-mini是

“OpenAI的創新好像到瓶頸期了。”一位業界人士這樣說道。

今日凌晨，預熱了很久的OpenAI o3模型完整版終于面世，且與以往直播“擠牙膏”式的依次、慢吞發布方式不同的是，這次o3和o4-mini是同時發布。

在OpenAI官方的陳述中，o3和o4-mini的亮點主要在于可以組合調用ChatGPT中的各個工具，像是網絡搜索、Python、圖像分析、文件解釋和圖像生成等。這可以看作是OpenAI開始后發補足自身在Agent能力上的探索。

其中，o3作為推理模型，在編程、數學、科學、視覺感知等多個維度的基準測試中都刷新了紀錄。比如在Codeforces、SWE-bench、MMMU基準測試中，視覺任務準確率高達87.5%，而MathVista達到75.4%。

其實分數、榜單，這些都是常規操作。相較于以往，這次的大不同在于，o3和o4-mini將上傳的圖像直接集中到思維鏈中，這就意味著，圖像不僅僅是被看到，還能被用來作為思考過程中的一部分。

從OpenAI團隊成員、中科大校友Jiahui Yu發布的帖文來看，“用圖像思考”應該是OpenAI去年9月發布o系列模型以來，就在研發計劃中，之前還悄悄推出了o1 Vision并進行了初步預覽，但并沒有取得很好的效果，也沒有引起關注，直到這次在o3和o4-mini上實現了這一能力。

根據外部專家評估，o3作為o1系列模型的繼任者，其在復雜問題上的錯誤率要比后者低20%，適合在生物學、數學和工程領域的復雜問題查詢。

針對這一點，國外一位醫學博士在測評后發帖表示，這一點確實有很大進步，當他向o3來提問一些頗具挑戰性的臨床或醫學問題時，回答精準、全面，符合對一位該領域真正專家的期望。

對于那些想親自測評、體驗的用戶來說，OpenAI官方已經表示，目前ChatGPT的Plus、Pro會員以及Team用戶，即日起就可以直接體驗o3、o4-mini，以及o4-mini-high，而之前的o1、o3-mini和o3-mini-high已默默退出舞臺。這一操作也被有些網友戲稱為“內部賽馬”，新的產品出來后，之前的通通讓路。

到目前為止，之前預告要發布的GPT?4.1全家桶系列、o3、o4-mini模型就已經全部亮相展示了。據Sam Altman表示，o3和o4-mini可能是ChatGPT在GPT-5發布之前的后獨立AI推理模型了，期間大概率是不會再有其他新款模型出來了，另外他也說了，預計將在幾周內將o3-pro升級到專業版。

在OpenAI官方的宣傳口徑中，o3和o4-mini是OpenAI所有模型中為強大、智能的模型，一些開發者、用戶在使用時，也感受到了進步。但是，創新能力似乎并沒有達到預期。

“OpenAI的步調已經不再挺胸闊步了，更不知所措。”在看完OpenAI這次發布的新品后，一位業內人士這樣感嘆道。

雖然o3、o4-mini模型作為新產品，效果不錯，但相較于OpenAI以往的激進和高舉旗幟式前進，如今在創新上面呈現出明顯的心有余而力不足。

其實前兩天在GPT4.1系列套餐發布后，不少業內人士就向虎嗅表示，“暫時還沒看到有什么特別亮眼的突破。”“對o3期待值沒有那么高。”

或者這種“失望”要來得更早一點。

去年12月，o3在OpenAI的系列直播尾聲亮相，Sam Altman稱其為“一個非常、非常聰明的模型”，完全將O1甩在身后，更是在ARC-AGI測試這一旨在評估AI系統適應新任務和展示流動智力能力的測試中，獲得87.5%的成績，也是首次超越人類平均水平（85%），令業界感到震驚，被認為是在通往AGI的道路上迎來了新突破。但在業界開發者看來，似乎并不是這樣。

“這就好比高考成績不能代表工作業務能力。”一位開源領域人士銳評道。而且，如今的行業趨勢已經進入到對數據高要求、對Agent全適配方向中，這就意味著私有化和混合模型推理為主的時代到來了。但是OpenAI對于開源的態度，眾所周知。

尤其是在年初，當DeepSeek-R1憑借著超低的訓練成本和性能媲美o1精彩亮相時，無疑是給了OpenAI一記響亮的耳光，而DeepSeek的全方位、無死角開源，像是又給了OpenAI再一記更響亮的耳光。

之后，這兩記耳光不僅打得OpenAI黯然失色，還亂了它的陣腳和節奏，模型命名混亂、功能創新不足、嘗試開源但態度曖昧不明，再加上內部人員高頻流失，等等，無疑正在讓它慢慢失去競爭優勢，再不復一年之前被視為通往AGI的正確的、領先的道路引領者角色……

而官方也說了，此次發布的GPT4.1系列、o3，以及o4-mini是GPT-5正式發布前的后一次模型發布了，也被視為GPT-5時刻的關鍵一步，可以理解為是GPT-5的前菜，主打“量大管飽”。但是，在技術的攀登道路上，量變能夠引起質變并非唯一真理，更何況，這個量還遠遠不足。

“GPT-5應該是多個GPT4.1組成的吧。”一位業內人士這樣戲謔道，一直傳GPT-5或將在5月發布，到底OpenAI還能不能重回巔峰，只有到時候揭曉了。

OpenAI并未讓DeepSeek驚出一身冷汗

文章出處：虎嗅網

本文鏈接：http://www.tebozhan.com/showinfo-17-145040-0.htmlOpenAI并未讓DeepSeek驚出一身冷汗

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： “反馬斯克”情緒高漲特斯拉失守加州

下一篇：賈躍亭：再次被惡意做空者盯上將打贏夢想實現戰

標簽：

熱門焦點

石頭智能洗地機A10 Plus體驗：雙向自清潔治好了我的懶癌

一、前言和介紹專為家庭請假懶人而生的石頭科技在近日又帶來了自己的全新旗艦新品，石頭智能洗地機A10 Plus。從這個產品名上就不難看出，這次石頭推出的并不是常見的掃地機器
6月安卓手機好評榜：魅族20 Pro蟬聯冠軍

性能榜和性價比榜之后，我們來看最后的安卓手機好評榜，數據來源安兔兔評測，收集時間2023年6月1日至6月30日，僅限國內市場。第一名：魅族20 Pro好評率：95%5月份的時候魅族20 Pro就是
Rust中的高吞吐量流處理

作者 | Noz編譯 | 王瑞平本篇文章主要介紹了Rust中流處理的概念、方法和優化。作者不僅介紹了流處理的基本概念以及Rust中常用的流處理庫，還使用這些庫實現了一個流處理程序
一文掌握 Golang 模糊測試（Fuzz Testing）

模糊測試（Fuzz Testing）模糊測試（Fuzz Testing）是通過向目標系統提供非預期的輸入并監視異常結果來發現軟件漏洞的方法。可以用來發現應用程序、操作系統和網絡協議等中的漏洞或
慕巖炮轟抖音，百合網今何在？

來源：價值研究所作者：Hernanderz“難道就因為自己的一個產品牛逼了，從客服到總裁，都不愿意正視自己產品和運營上的問題，選擇逃避了嗎？”這一番話，出自百合網聯合創
年輕人的“職場羞恥感”，無處不在

作者：馮曉亭陶淘李欣張琳馬舒葉來源：燃次元“人在職場，應該選擇什么樣的著裝？”近日，在網絡上，一個與著裝相關的帖子引發關注，在該帖子里，一位在高級寫字樓亞洲金
華為Mate60系列模具曝光：采用碩大圓形后置相機模組+拼接配色方案

據此前多方爆料，今年華為將開始恢復一年雙旗艦戰略，除上半年推出的P60系列外，往年下半年的Mate系列也將迎來更新，有望在9-10月份帶來全新的華為Mate60
三星折疊屏手機去年銷售近1000萬臺今年目標定為1500萬

7月29日消息，三星率先發力可折疊手機市場，在全球市場已經取得了非常亮眼的成績，接下來會進一步鞏固和擴大這一優勢。三星在推出Galaxy Z Flip5和Galax
onebot M24巧系列一體機采用輕薄機身設計，現已在各平臺開售

onebot M24 巧系列一體機目前已在線上線下各平臺同步開售。onebot M24 巧系列采用一體化輕薄機身設計，最薄處為 10.15mm，擁有寶石紅、午夜藍、石墨綠、雅致

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

OpenAI并未讓DeepSeek驚出一身冷汗

石頭智能洗地機A10 Plus體驗：雙向自清潔治好了我的懶癌

6月安卓手機好評榜：魅族20 Pro蟬聯冠軍

Rust中的高吞吐量流處理

一文掌握 Golang 模糊測試（Fuzz Testing）

慕巖炮轟抖音，百合網今何在？

年輕人的“職場羞恥感”，無處不在

華為Mate60系列模具曝光：采用碩大圓形后置相機模組+拼接配色方案

三星折疊屏手機去年銷售近1000萬臺今年目標定為1500萬

onebot M24巧系列一體機采用輕薄機身設計，現已在各平臺開售

最新推薦

猜你喜歡

熱門推薦

相關資訊