AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

初探 OpenAI GPT-4.1 性能:AI 編程能力大增,但谷歌 Gemini 依然稱王

來源: 責編: 時間:2025-04-18 06:48:58 30觀看
導讀 4 月 16 日消息,科技媒體 bleepingcomputer 昨日(4 月 15 日)發布博文,報道稱 OpenAI 最新發布的 GPT-4.1 系列模型,其性能相比 GPT-4o 雖然實現重大飛躍,但多項跑分未能超越谷歌的 Gemini 系列。昨日報道,OpenAI 公

4 月 16 日消息,科技媒體 bleepingcomputer 昨日(4 月 15 日)發布博文,報道稱 OpenAI 最新發布的 GPT-4.1 系列模型,其性能相比 GPT-4o 雖然實現重大飛躍,但多項跑分未能超越谷歌的 Gemini 系列。saw28資訊網——每日最新資訊28at.com

昨日報道,OpenAI 公司發布 GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano,官方公布的跑分數據來看,這些模型在編程方面的能力,遠超 GPT-4o 及 GPT-4o mini。saw28資訊網——每日最新資訊28at.com

例如在 SWE-bench Verified 跑分中,GPT-4o 的得分為 21.4%,GPT-4.5 的得分為 26.6%,而 GPT-4.1 的得分為 54.6%。saw28資訊網——每日最新資訊28at.com

saw28資訊網——每日最新資訊28at.com

盡管性能有較大提升,不過根據多位專家測試,相比較谷歌的 Gemini 系列,GPT-4.1 對比中卻顯露劣勢。saw28資訊網——每日最新資訊28at.com

根據 Stagehand(一款生產級瀏覽器自動化框架)發布的基準數據,Gemini 2.0 Flash 的錯誤率僅為 6.67%,精確匹配率高達 90%,且價格低廉、速度更快。相比之下,GPT-4.1 的錯誤率高達 16.67%,成本更是 Gemini 2.0 Flash 的 10 倍以上。saw28資訊網——每日最新資訊28at.com

saw28資訊網——每日最新資訊28at.com

此外,哈佛大學 RNA 科學家 Pierre Bongrand 提供的數據也指出,GPT-4.1 的性價比不及 Gemini 2.0 Flash、Gemini 2.5 Pro 及 DeepSeek 等競品。saw28資訊網——每日最新資訊28at.com

saw28資訊網——每日最新資訊28at.com

在編碼專項測試中,GPT-4.1 同樣未能占據上風。Aider Polyglot 的測試結果顯示,GPT-4.1 的編碼得分僅為 52%,而 Gemini 2.5 則以 73% 的成績遙遙領先。saw28資訊網——每日最新資訊28at.com

saw28資訊網——每日最新資訊28at.com

值得注意的是,GPT-4.1 被歸類為非推理模型(non-reasoning model),但其編碼能力仍屬行業頂尖。saw28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-12352-0.html初探 OpenAI GPT-4.1 性能:AI 編程能力大增,但谷歌 Gemini 依然稱王

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: OpenAI 的 GPT - 4.1 無安全報告,AI 安全透明度再遭質疑

下一篇: 消息稱蘋果 watchOS 12 將引入 Apple Intelligence 功能,依賴 iPhone 運行模型

標簽:
  • 熱門焦點
  • 歐盟人工智能法案:四種AI系統風險類型的劃分及監管措施

    作者:趙志東 蔡佳雯來源:區塊鏈日報該法案采用風險分級的規制路徑,將人工智能系統的風險劃分成不可接受的風險、高風險、有限風險和輕微風險四種類型,并針對不同類型施加了不同
  • 避坑指南:遠離具有這些特性的NFT

    關于NFT,在我們的文章中一直以來都是常駐嘉賓,不止因為NFT背后隱藏的潛力,更因為在這個NFT世界里冥冥之中仿佛有一雙幕后的手,OpenSea、庫里、ERC115、視覺中國、
  • 2022年最具關注的9個頭像NFT項目

    什么是 PFP NFT 項目?PFP NFT (個人資料圖片NFT)是一組獨特的數字收藏品,人們用來在互聯網平臺上代表自己。這些數字藝術作品通常是一系列可作為頭像的角色,在 Twit
  • 國內涌現70余家數字藏品平臺:合規、流量與利潤在博弈

    作者:楊鄭君2月16日,迅雷鏈企業數字藏品服務平臺正式上線,繼阿里、騰訊、京東、百度、網易等之后,又一家互聯網企業正式加入到火熱的數字藏品平臺的競爭中。除互聯
  • 從冰墩墩到無聊猿,解秘未來IP爆款的模因

    打造IP,是建設元宇宙的剛需。NFT能直接讓IP的價值變現;虛擬人IP是元宇宙的第一入口,而元宇宙要搭建的,就是一個個品牌IP星球,考驗的是IP世界觀的建設能力。如果說在
  • 2022年元宇宙系列報告:UGC當道,XR帶來新交互體驗

    UGC作為元宇宙的主要內容創作模式,已經越來越多的呈現于游戲、娛樂、社交、傳媒等方面,UGC模式勾勒了元宇宙的邊界,現今元宇宙UGC模式的主要呈現方式以元宇宙概念
  • 小眾有趣NFT藝術作品欣賞(1)

    隨著NFT發展火熱,越來越多領域與NFT融合,NFT藝術在加密領域中占據了很大一部分。NFT藝術與傳統藝術有相似之處,也有完全不同的地方。NFT藝術與傳統藝術一樣,表現了
  • 元宇宙存在的意義和價值

    科技公司目前都在猶豫,看誰能在元宇宙上押下更大的賭注。然而,除了巨額的資金投入,到底要怎樣才能獲勝在很大程度上還沒有得到證實。它是否僅僅是對當前數字景觀
  • NFT行業周報:NBA巨星勒布朗·詹姆斯申請NFT相關商標

    1. “無聊猿”BAYC交易總額突破14億美元3月10日,據DappRader最新數據顯示,“無聊猿”Bored Ape Yacht Club(BAYC)交易總額已突破14億美元,創下歷史新高,本文撰寫時為
Top