AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

選 AI 比選對象還難!“起名黑洞”OpenAI 的新模型,到底怎么選?

來源: 責編: 時間:2025-04-24 11:33:34 13觀看
導讀 一句話看懂:o3 以深度推理與工具調用能力領跑復雜任務,GPT-4.1 超長上下文與精準指令執行適合 API 開發,而 o4-mini 則堪稱日常任務的「性價比之王」。如果你最近關注 AI 新聞,可能會被各種層出不窮的新模型搞得

一句話看懂:o3 以深度推理與工具調用能力領跑復雜任務,GPT-4.1 超長上下文與精準指令執行適合 API 開發,而 o4-mini 則堪稱日常任務的「性價比之王」。zxg28資訊網——每日最新資訊28at.com

如果你最近關注 AI 新聞,可能會被各種層出不窮的新模型搞得眼花繚亂。zxg28資訊網——每日最新資訊28at.com

尤其是堪稱「起名黑洞」的 OpenAI,命起名來可謂是毫無章法。zxg28資訊網——每日最新資訊28at.com

即便是 AI 圈的資深團隊,在面對同時發布的 o3、o4-mini、GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 時,也是蒙圈的。zxg28資訊網——每日最新資訊28at.com

zxg28資訊網——每日最新資訊28at.com

為了解決這個困擾,來自 Every 和 DataCamp 的團隊在經過反復測試、來回切換模型,折騰了很多提示詞后,得出了以下結論:zxg28資訊網——每日最新資訊28at.com

o3:OpenAI 最新的旗艦模型,也是最會「深度思考」的選手 —— 專為自主復雜推理與工具調用設計。zxg28資訊網——每日最新資訊28at.com

o4?mini:效率發動機 —— 速度快、價格低,對數學、視覺推理和成本敏感型開發任務表現驚人。它不是明星旗艦,也不是基準霸主,但憑借效率優勢,完全可以承擔一般的任務。zxg28資訊網——每日最新資訊28at.com

GPT?4.1:API 專用的主力干將 —— 指令遵循嚴謹,長上下文記憶出眾。zxg28資訊網——每日最新資訊28at.com

zxg28資訊網——每日最新資訊28at.com

接下來,看看這三款模型的新特性、各自擅長什么,以及在 Every 團隊的工作流中,它們實際表現如何。zxg28資訊網——每日最新資訊28at.com

o3——OpenAI 最強推理模型

o3 是 OpenAI 最新的前沿模型,旨在提升其在編碼、數學、科學與視覺感知等復雜任務上的推理能力。zxg28資訊網——每日最新資訊28at.com

它也是首個具備自主工具調用能力的推理模型,可使用搜索、Python、圖像生成以及圖像解讀等工具來完成任務。zxg28資訊網——每日最新資訊28at.com

憑借這一能力,就讓它在針對現實世界問題求解的高級基準測試中表現出色,而此前的模型往往難以勝任。zxg28資訊網——每日最新資訊28at.com

OpenAI 特別強調了 o3 相較于 o1 的顯著提升,并將其定位為迄今為止功能最強、適用面最廣的模型。zxg28資訊網——每日最新資訊28at.com

o3 不只是像 GPT?4o 那樣會用工具、能看圖 —— 它還能把這些工具和圖像融入自己的推理過程。zxg28資訊網——每日最新資訊28at.com

o3 的優勢

?工具調用zxg28資訊網——每日最新資訊28at.com

o3 既懂得如何使用單個工具,也知道如何把多種工具串聯起來,并在關鍵時刻切換方案。zxg28資訊網——每日最新資訊28at.com

假設你上傳一張月度銷售圖表,它可能先用 OCR 提取數據,再寫 Python 代碼計算同比增長,隨后檢索行業基準為結果提供背景 —— 一氣呵成。zxg28資訊網——每日最新資訊28at.com

在單條回復中,它最多可調用 600 次工具,邊執行邊自我優化;一旦出現問題,也能迅速調整方向。就像一位自驅的分析師,隨身攜帶瑞士軍刀,而且知道什么時候該用哪一把刀。zxg28資訊網——每日最新資訊28at.com

?視覺推理zxg28資訊網——每日最新資訊28at.com

o3 會帶著真實語境去深度解析圖像。其他模型也許只會說「這是一幅描繪女性的畫」,而 o3 會放大畫角,讀出畫家簽名,查出畫作懸掛的博物館,并為你講述其所屬藝術流派的歷史。zxg28資訊網——每日最新資訊28at.com

o3 的技術創新

性能大幅躍升絕非偶然。OpenAI 團隊通過多項突破,才拿出了如此漂亮的成績單:zxg28資訊網——每日最新資訊28at.com

?擴展強化學習zxg28資訊網——每日最新資訊28at.com

OpenAI 發現,只要在強化學習階段提升算力投入,模型效果就能顯著提升,這與 GPT 系列在監督預訓練里的「越算越強」規律如出一轍。不同的是,此時的 o3 并非優化「下一詞預測」,而是通過最大化強化學習獎勵來學習,且常在工具增強環境中訓練。zxg28資訊網——每日最新資訊28at.com

實質上,OpenAI 把強化學習當成了「放大版預訓練」:訓練更久、用更多算力,結果也更好。由此解鎖了長期規劃與序列推理等能力,例如競技編程、多步數學證明。再配合工具調用,性能增益更加明顯。zxg28資訊網——每日最新資訊28at.com

?動態視覺推理zxg28資訊網——每日最新資訊28at.com

o3 在視覺推理上同樣大幅躍進。它不僅能理解圖片,還把圖像直接納入推理循環 —— 解釋、操作、反復查看都不在話下。因而在科學圖表、數學示意圖,甚至通過照片排定日程等任務上表現突出。zxg28資訊網——每日最新資訊28at.com

核心做法是:在整個推理過程中始終保留原圖。zxg28資訊網——每日最新資訊28at.com

與傳統「生成文本描述后就丟圖」的做法不同,o3 可借助工具隨時放大、旋轉、重看圖像任意區域,使推理更靈活,也能處理更凌亂的視覺輸入,如模糊白板、手繪草圖或會議日程照片。zxg28資訊網——每日最新資訊28at.com

舉個例子,OpenAI 讓 o3 讀取一張低清晰度的演出排期照片,并規劃一份在每場活動之間留出 10 分鐘休息的行程 —— 既要解析視覺布局,又得實時應用約束條件。zxg28資訊網——每日最新資訊28at.com

zxg28資訊網——每日最新資訊28at.com

比如,給 o1 看一幅粗糙草圖,問「這將繪制哪種分形?」——o1 答錯了;而 o3 直接命中了「龍形曲線」。zxg28資訊網——每日最新資訊28at.com

雖然只是小測試,但結果令人驚喜,因為我們并未提供太多線索。zxg28資訊網——每日最新資訊28at.com

zxg28資訊網——每日最新資訊28at.com

zxg28資訊網——每日最新資訊28at.com

?更優成本效率zxg28資訊網——每日最新資訊28at.com

更令人意外的是,o3 的性價比也更高:在相同推理成本下,它交出了更好的成績。這或許得益于架構級優化,提高了 Token 吞吐量并降低了延遲。zxg28資訊網——每日最新資訊28at.com

自 Deepseek?R1 以 ChatGPT 僅幾分之一的成本取得高性能以來,成本一直是熱門話題,而 o3 的表現顯然再次推高了業界預期。zxg28資訊網——每日最新資訊28at.com

zxg28資訊網——每日最新資訊28at.com

o4?mini—— 小巧、敏銳,卻實力驚人

o4?mini 是 OpenAI o 系列推理模型的最新成員。zxg28資訊網——每日最新資訊28at.com

它針對速度、低成本以及工具增強推理能力進行了優化,提供 200 000 Token 的上下文窗口,并可輸出最多 100000 個 Token,性能與 o3、o1 相當。zxg28資訊網——每日最新資訊28at.com

在工具層面,o4?mini 兼容 Python 執行、網頁瀏覽和圖像輸入,可接入 OpenAI 的標準接口(包括 Chat Completions 和 Responses)。支持流式輸出、函數調用及結構化輸出,但暫不支持微調和嵌入(Embeddings)。zxg28資訊網——每日最新資訊28at.com

o4?mini 兼顧「量」和「質」:面向普通用戶的每日消息上限達 150 條,而 o3 的上限是每周 50 條;在數學、編程和高視覺負載任務上,它以更快速度、極低成本,達到接近 o3 的性能。zxg28資訊網——每日最新資訊28at.com

雖然 o3 仍然是 OpenAI 最強的推理模型,但 o4?mini 可以使用十分之一不到的費用獲得 o3 大部分的性能。zxg28資訊網——每日最新資訊28at.com

o4?mini 的優勢

?體積雖小,威力十足zxg28資訊網——每日最新資訊28at.com

要分析海量數據,或匯總凌亂的研究表格?o4?mini 輕松應對 —— 篩選洞見、編寫結構化查詢語言(SQL)、檢索數據,并將結果繪制成可交互圖表。zxg28資訊網——每日最新資訊28at.com

o3 也許要十幾步推理、付出不菲的 token 成本,而 o4?mini 直截了當,給你既簡潔又合理的答案。zxg28資訊網——每日最新資訊28at.com

zxg28資訊網——每日最新資訊28at.com

zxg28資訊網——每日最新資訊28at.com

?工具齊全,算力更省zxg28資訊網——每日最新資訊28at.com

o4?mini 提供與 o3 同級別的完整工具箱,包括 Python、網頁瀏覽、圖像分析與生成等。zxg28資訊網——每日最新資訊28at.com

生成分析報告時,它可以一次完成:拉取 CSV,用 Python 清洗并制圖,上網查找行業宏觀數據進行對比,最后輸出 Markdown 報告;整個過程無需承擔 o3 的計算開銷。zxg28資訊網——每日最新資訊28at.com

o4?mini 與 o4?mini?high

打開 ChatGPT 應用,你會發現有 o4?mini 和 o4?mini?high 兩種選擇。zxg28資訊網——每日最新資訊28at.com

顧名思義,o4?mini?high 就是通過更多推理算力的投入,來換取更佳表現。zxg28資訊網——每日最新資訊28at.com

這意味著 o4?mini?high 相比于 o4?mini:zxg28資訊網——每日最新資訊28at.com

會在內部花費更多時間處理每個提示詞;zxg28資訊網——每日最新資訊28at.com

通常能生成更高質量的輸出,尤其是多步任務;zxg28資訊網——每日最新資訊28at.com

但響應速度更慢,且可能消耗更多 Token。zxg28資訊網——每日最新資訊28at.com

如果你更看重速度,o4?mini 或許更合適。若任務需要復雜推理(尤其涉及代碼或視覺輸入)、更長上下文,或對精度要求極高,那么 o4?mini?high 更有可能給出更好的結果。zxg28資訊網——每日最新資訊28at.com

實測表現

接下來,對 o4?mini 分別在數學和編碼場景下進行測試。zxg28資訊網——每日最新資訊28at.com

?數學zxg28資訊網——每日最新資訊28at.com

首先,給它一道看似簡單、卻常常難住語言模型的計算題。zxg28資訊網——每日最新資訊28at.com

目的不是測它的基礎算術,而是想看看它會如何解題:一步步推理,還是調用像計算器這樣的工具。zxg28資訊網——每日最新資訊28at.com

zxg28資訊網——每日最新資訊28at.com

第一次回答錯了。于是,直接提醒它要使用計算器。zxg28資訊網——每日最新資訊28at.com

第二次雖然算對了,但仍有兩個問題:zxg28資訊網——每日最新資訊28at.com

它把答案稱為「約等于」,可這道減法題根本不用任何估算。zxg28資訊網——每日最新資訊28at.com

從推理過程能看出它并未真正調用計算器,盡管輸出里寫著「計算器顯示」,這與實際計算方式不符。更離譜的是,它還去搜了網頁,而這種基礎題完全無需聯網查詢。zxg28資訊網——每日最新資訊28at.com

zxg28資訊網——每日最新資訊28at.com

隨后又給了它一道更有挑戰性的數學題,這回表現就穩多了。zxg28資訊網——每日最新資訊28at.com

模型反應迅速,用一小段 Python 腳本就解出了答案,而且還能在思維鏈里直接看到代碼。能把代碼公開為推理過程的一部分,確實相當實用。zxg28資訊網——每日最新資訊28at.com

zxg28資訊網——每日最新資訊28at.com

?生成 p5.js 游戲zxg28資訊網——每日最新資訊28at.com

在這個測試中,選用算力更高的 o4?mini?high。zxg28資訊網——每日最新資訊28at.com

提示詞:給我做一款引人入勝的無盡跑酷游戲。關鍵操作說明顯示在屏幕上。p5.js 場景,不要 HTML。我喜歡像素風恐龍和有趣的背景。zxg28資訊網——每日最新資訊28at.com

第一次生成的結果:zxg28資訊網——每日最新資訊28at.com

zxg28資訊網——每日最新資訊28at.com

有些地方我想調整,于是再次進行提示:zxg28資訊網——每日最新資訊28at.com

畫一只更像樣的恐龍 —— 那東西一點也不像恐龍。zxg28資訊網——每日最新資訊28at.com

讓玩家按下任意鍵再開始游戲 —— 不要一啟動就自動開始;同時確保所有操作說明仍然顯示在屏幕上。zxg28資訊網——每日最新資訊28at.com

游戲結束后,讓玩家可以重新嘗試。zxg28資訊網——每日最新資訊28at.com

第二次生成的結果:zxg28資訊網——每日最新資訊28at.com

zxg28資訊網——每日最新資訊28at.com

這次好多了,但這只「恐龍」看起來還是像一臺老式電影攝像機。zxg28資訊網——每日最新資訊28at.com

GPT?4.1—— 為精準而生,不為「氛圍」服務

目前 GPT?4.1 只通過 API 向開發者開放,目標是以毫不妥協的精準度執行細致入微的指令。zxg28資訊網——每日最新資訊28at.com

它沒有 4.5 等前輩那種「夢幻」氣質,卻更加結構化、可靠且一致。可以把它當作 OpenAI 面向特定開發任務的高負荷「勞模」,而非發散創意的靈感源泉。zxg28資訊網——每日最新資訊28at.com

GPT?4.1 的優勢

?遵循復雜指令zxg28資訊網——每日最新資訊28at.com

GPT?4.1 處理任務就像經驗老到的領航員。zxg28資訊網——每日最新資訊28at.com

比如你正在寫一個食譜生成器,并且把所有的要求都寫在了一個提示詞里 —— 以 Markdown 輸出、避開特定話題、按指定順序列出烹飪步驟,并附上鈉含量等關鍵指標。zxg28資訊網——每日最新資訊28at.com

舊版模型可能會漏掉步驟或亂了順序,而 4.1 會嚴格遵照你的路線,哪怕十分漫長、全是彎彎繞繞。zxg28資訊網——每日最新資訊28at.com

這帶來了兩大好處:寫提示詞的時間更短,處理模型輸出的時間也更短。zxg28資訊網——每日最新資訊28at.com

?記憶力驚人zxg28資訊網——每日最新資訊28at.com

上下文窗口從 128000 個 token 擴大到 1000000 個 token,比 GPT?4o 足足多出了 8 倍。zxg28資訊網——每日最新資訊28at.com

你只需一次性設定語氣或結構,它便能在多輪對話中持續遵循,無需每次從頭設置。zxg28資訊網——每日最新資訊28at.com

這讓很多實際場景變得可行:一次性處理完整日志、為代碼倉庫建索引、順暢運行多文檔法律流程,或分析長篇內容,全程無需分塊或摘要。zxg28資訊網——每日最新資訊28at.com

?結構化輸出zxg28資訊網——每日最新資訊28at.com

GPT?4.1 就像自駕游里那個「只要路線明確就特別好相處」的朋友。給它清晰的行程表,它就執行得又準又快。zxg28資訊網——每日最新資訊28at.com

可如果拋給它「氛圍」式的提示詞,比如「能不能讓這個食譜 App 像走進一家溫馨的地下酒吧?」,它可能立刻就想回家。zxg28資訊網——每日最新資訊28at.com

GPT?4.1、GPT-4.1 mini 和 GPT-4.1 nano

如果你想在編碼、指令遵循以及長上下文任務上獲得最優綜合表現,就選 GPT?4.1。它能勝任復雜的編碼工作流,也能在單條提示詞中處理大體量文檔。zxg28資訊網——每日最新資訊28at.com

GPT?4.1 mini 屬于中端選項,延遲和成本更低,卻幾乎具備與完整版相同的能力。在多項基準(包括指令遵循和圖像推理)中,它能追平甚至超越 GPT?4o。zxg28資訊網——每日最新資訊28at.com

GPT?4.1 nano 是系列中體積最小、速度最快、成本最低的模型(0.1 美元 / 百萬 Token),面向自動補全、分類,以及從長文檔中抽取信息等任務。雖然它的推理和規劃能力不如更大的模型,但對于某些任務來說,這已經足夠用了。zxg28資訊網——每日最新資訊28at.com

與完整版的 GPT?4.1 一樣,mini 和 nano 都支持 100 萬 Token 的上下文窗口。zxg28資訊網——每日最新資訊28at.com

對比競品的表現? GPT-4.1 vs Claude 3.7 Sonnet

根據測試,在代碼的優雅度和結構性方面,Claude 3.7 Sonnet 仍是首選,尤其體現在整體風格一致性和用戶界面表現上。zxg28資訊網——每日最新資訊28at.com

不過,只要提示詞范圍清晰且具體,4.1 在執行指令能力上已大幅拉近差距。zxg28資訊網——每日最新資訊28at.com

? o4?mini vs GPT?3.5

就目前觀察,o4?mini 正逐漸成為開發者在有限預算下追求速度、可靠性與視覺處理能力時的「平價首選」。而 2022 年 11 月發布的 GPT?3.5,如今已經顯得有些「過氣」了。zxg28資訊網——每日最新資訊28at.com

參考資料:zxg28資訊網——每日最新資訊28at.com

https://every.to/context-window/vibe-check-openai-s-o3-gpt-4-1-and-o4-minizxg28資訊網——每日最新資訊28at.com

https://www.datacamp.com/blog/o4-minizxg28資訊網——每日最新資訊28at.com

https://www.datacamp.com/blog/o3-openaizxg28資訊網——每日最新資訊28at.com

https://www.datacamp.com/blog/gpt-4-1zxg28資訊網——每日最新資訊28at.com

本文來自微信公眾號:新智元(ID:AI_era)zxg28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-12531-0.html選 AI 比選對象還難!“起名黑洞”OpenAI 的新模型,到底怎么選?

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 昆侖萬維開源 SkyReels-V2 模型,開啟生成“無限時長”視頻時代

下一篇: 深圳大學人工智能學院正式揭牌成立,打造本碩博一體化 AI 人才培養體系

標簽:
  • 熱門焦點
  • 雷克薩斯高管,“受賄”5000萬?

    來源:毒舌科技作者:潘磊雷克薩斯的高管,好像出事了。五六家日本小媒體,突然曝出了一個與中國市場有關的大新聞——雷克薩斯中國區一個高管受賄10億日元(約合人民幣5000
  • 茅臺的元宇宙App火了,也被罵慘了

    元宇宙從概念走向大眾生活,并不是一件簡單的事情。技術、世界觀、填充內容、載體形式,每一個環節都需要層層疊疊的邏輯。但正如賽博朋克奠基人威廉·吉布
  • 上、中、下游加深融合,搭建元宇宙產業全景

    元宇宙產業鏈涉及多種技術和多個領域。在上游,聚集著大量的技術廠商,提供元宇宙相關的硬件和軟件支持;在中游,內容運營與分發領域也吸引著越來越多的企業以VR內容
  • 中國虛擬數字人如何橫向拓展市場需求,探索發展場景?

    通過5G、AI等新技術更新換代,虛擬數字人為諸多下游行業帶來新的發展機會。虛擬數字人技術以其簡化性和精品性持續拓展泛娛樂、金融、教育、政務、醫療、零售等
  • 紐約街頭出現NFT自動販賣機

    一家初創公司宣布在紐約市開放一臺NFT自動售貨機,允許任何人——即使是沒有加密資產的人也能購買NFT。該交易平臺名為Neon,上個月完成了一輪300萬美元的種子募捐
  • Shiba Inu布局元宇宙 走出Meme局限

    以「狗狗幣殺手」成名的Shiba Inu(SHIB)在人們的印象中始終有著濃厚的Meme(模因惡搞)烙印,但它似乎一直在嘗試突破這種局限。建立起一個龐大的粉絲社區后,Shiba Inu
  • 元宇宙存在的意義和價值

    科技公司目前都在猶豫,看誰能在元宇宙上押下更大的賭注。然而,除了巨額的資金投入,到底要怎樣才能獲勝在很大程度上還沒有得到證實。它是否僅僅是對當前數字景觀
  • 虛擬人的3大紀律和6種品牌孵化模式

    作者:陳格雷(老小格)及團隊虛擬人很熱,我們最近廣泛收集和研究了、各種消費品牌企業在虛擬人開發上的一些主要特點,整理出6種最主要的品牌虛擬人模式,后面一一介紹。
  • 爆發在即的Layer2賽道百花齊放,誰將是領跑者?

    還記得幾年前最早我們提起ETH擴容,首先想到就是Layer2,而Layer2里,首先想到的是閃電網絡,狀態通道,Plasma…然后折騰了幾年,發現并沒有什么用,許多項目方和資本也等不
Top