當前位置：首頁 > 元宇宙 > AI

谷歌最強模型 Gemini 2.5 Pro 發布即屠榜，創下史上最大分數飛躍紀錄

來源：責編：時間：2025-03-31 11:07:20 64觀看

導讀 Gemini 2.5 Pro，剛剛深夜上線了！這個「思考」模型專為復雜任務打造，推理能力強大，一經誕生就橫掃各大榜單、拿下各類 TOP 1，還創下了歷史上最大分數飛躍紀錄。Gemini 2.5 Pro 是一個「思考」模型，能夠在回應前先進

Gemini 2.5 Pro，剛剛深夜上線了！這個「思考」模型專為復雜任務打造，推理能力強大，一經誕生就橫掃各大榜單、拿下各類 TOP 1，還創下了歷史上最大分數飛躍紀錄。

Gemini 2.5 Pro 是一個「思考」模型，能夠在回應前先進行思考推理，從而提升性能，并改善準確性。

谷歌稱，它是世界上最強大的模型，具備統一的推理能力，以及用戶所喜愛的 Gemini 的所有功能（長上下文、工具等）。

它在多個基準測試中達到了 SOTA 水平，并且以顯著的優勢在 LMArena 上排名第一。

現在，Gemini 2.5 Pro 已經登頂了 Arena 排行榜的第一位，而且創下了歷史最大分數飛躍，比 Grok-3 / GPT-4.5 整整高出了 40 分！

在代號「nebula」的測試中，它也橫掃所有類別奪得第一，并且獨攬數學、創意寫作、指令遵循、長查詢和多輪對話五大領域的冠軍！

在困難提示詞和編程兩大領域，它與 Grok-3 / GPT-4.5 拿到了并列冠軍，而且在所有其他比拼中都以微弱優勢勝出，成功問鼎榜首！

此外，Gemini 2.5 Pro 還成功登頂了視覺競技場（Vision Arena）排行榜榜首！

在網頁開發領域，它也同樣大放異彩，成功斬獲網頁開發競技場（WebDev Arena）亞軍寶座！

它是首個實力媲美 Claude 3.5 Sonnet 的模型，相比之前版本的 Gemini 更是實現了質的飛躍。

這一次，谷歌的模型又展現出巨大的飛躍，OpenAI、Anthropic、DeepSeek 等競爭對手，在多久時間內會趕上？

目前，Gemini 2.5 Pro 已在 Google AI Studio 和 Gemini 應用中，向 Gemini Advanced 用戶開放，并將很快在 Vertex AI 上推出。

而它的定價方案，會在未來幾周內公布，用戶可以在更高使用配額下，將模型應用于大規模生產環境。

網友實測后發現，它果然實力驚人，在所有模型中效果拔群，第一次嘗試就只用幾秒解決了一道難題。

Gemini 2.5 Pro 上線

谷歌表示，在 AI 領域，系統的「推理」能力不僅僅指分類和預測，而是指系統分析信息、得出邏輯結論、融入上下文和細微差別，以及做出明智決策的能力。

長期以來，谷歌一直在探索通過強化學習和思維鏈提示詞等技術，讓 AI 更智能、更具推理能力的方法。

正是在此基礎上，他們在 2 月推出了第一個思考模型，Gemini 2.0 Flash Thinking。

而今天，通過 Gemini 2.5，他們結合了顯著增強的基礎模型和改進的后期訓練，讓模型達到了新的性能水平。

推理和代碼能力大幅提升

Gemini 2.5 Pro 展現出了強大的推理和代碼能力，在常見的編程、數學和科學基準測試中均處于領先地位。

另外，在各類需要高級推理能力的基準測試中，它都達到了 SOTA 水平。

無需使用測試階段會增加計算成本的技術（如多數投票法），2.5 Pro 就能在 GPQA 和 AIME 2025 等數學和科學基準評測中表現卓越。

而且，在不使用任何外部工具的條件下，它就在挑戰人類知識和推理能力的極限前沿「人類最后的考試」中取得了 18.8% 的準確率，達到業界領先。

在編程能力上，Gemini 2.5 相比 2.0 版本也實現了質的飛躍，而這，僅僅是個開始。

2.5 Pro 在創建視覺精美的網頁應用和 AI 智能體代碼應用方面都表現卓越，在代碼轉換和編輯領域中，也同樣實力出色。

在智能體代碼評估的行業標準測試 SWE-Bench Verified 上，Gemini 2.5 Pro 靠使用自定義智能體配置，就獲得了 63.8% 的優異成績。

以下這波 demo，就展示了 Gemini 2.5 Pro 如何運用強大推理，僅通過一行提示詞，就能生成可執行代碼，來創建完整的動畫和游戲。

在下面這個 demo 中，僅僅根據下面這行 prompt，它就生成了一段 p5js 的交互式動畫，展示了「宇宙魚」的場景，并且還顯示了魚們都在想什么。

它還根據以下 prompt，生成了一個無限的恐龍跑酷游戲。

按照要求，它生成了像素化的恐龍圖像和有趣的游戲背景。

隨后，Gemini 2.5 Pro 還通過編程實現了分形可視化。

它創建出了精細分形圖案的模擬程序，展現出了神奇的曼德布洛特集合。

此外，它還能構建一個交互式氣泡圖，直觀展示出了每個大陸的經濟與健康指標隨時間的變化。

或者用一段交互式的 Javascript 動畫，展示了旋轉六邊形內多彩的人工生命群體，并且按要求做成了「超新星星云」的感覺。

另外，它還能開發粒子系統模擬，給出了一個 HTML 文件，創造出了反射星云的沉浸式交互模擬場景。

原生多模態和超長上下文

Gemini 2.5 繼承并發揚了 Gemini 模型的優勢 —— 原生多模態能力和超長上下文長度。

自己發布之初，2.5 Pro 就支持 100 萬 token 的上下文窗口（而 200 萬 token 也即將推出！），性能顯著超越了前代模型。

這能讓它理解海量數據集，并處理來自多種信息源的復雜問題，包括文本、音頻、圖像、視頻，甚至完整的代碼倉庫。

最后，既然谷歌已經掏出了地表最強模型，接下來，就讓我們坐等 OpenAI 的反應了。

參考資料：

https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking

https://deepmind.google/technologies/gemini/pro/

https://x.com/lmarena_ai/status/1904581128746656099

本文鏈接：http://www.tebozhan.com/showinfo-45-11766-0.html谷歌最強模型 Gemini 2.5 Pro 發布即屠榜，創下史上最大分數飛躍紀錄

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：清華騰訊聯手，人工智能通識課點亮200余所鄉村小學希望之光

下一篇： OpenAI 直播狙擊谷歌：奧爾特曼 AGI 梗圖現場直出，GPT-4o 超強原生生圖來襲

標簽：

熱門焦點

如何對一款 NFT 項目進行價值評估？

原文作者 | Othmane Senhaji Rhazi，Web 3 企業家.編譯整理 | 黑米@白澤研究院我之所以成為一位大力倡導 Web3 和 NFT 領域的企業家，因為我相信我們正在見證社會
萬字專訪Vitalik Buterin：以太坊將成為主流和最安全的基礎層

Vitalik Buterin 在 19 歲時撰寫了以太坊白皮書。他的目標簡單而全面，即創建一個“世界計算機”，旨在成為所有在線應用程序的靈活基礎層，無需任何第三方。自 2015
《刀劍神域》VR展開幕；《Puzzling Places》發布第二個付費DLC

今日熱點：《刀劍神域：Ex-Chronicle Online Edition》VR展開幕；虛擬活動平臺EventX再獲800萬美元B輪融資；VR射擊游戲《Outlier》確認將于3月17日登陸Steam平臺等。
影響元宇宙土地價格的五個因素

參考來源 | cryptonews編譯 | Ciel@iNFTnews.com元宇宙中的房地產價格主要取決于使用它的人數，以及為所有者創造收益的能力。專注于數字資產的投資公司LedgerPr
參加元宇宙里的招聘會是什么樣一種體驗？

求職者可以在活動中走動，就像他們在現實生活中一樣。長話短說看亮點：招聘公司Hirect為Y-combinator支持的初創公司舉辦了一場元宇宙招聘會。這里有一個大廳、一
Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

雅痞哥不知道這人是誰還上新聞，問了助理，解釋，相當于美版劉歡的地位吧。Snoop Dogg 在 NFT 領域已經有一段時間了，尤其是在最近有消息稱人們在元宇宙中購買房地產
對諷刺無動于衷，Nori將碳市場放在區塊鏈上

當我們聊氣候問題的解決方案時，以太坊區塊鏈應該不是最首想到的，但這正是Nori所選擇的方案，它建立了一個引擎，鼓勵農民使用負碳耕作方法，將空氣中的碳抽出并放回地
花旗集團前高管加入Provenance區塊鏈，擔任CEO

No.1 花旗集團前高管加入Provenance區塊鏈，擔任CEO3月1日消息，Provenance區塊鏈基金會已任命花旗集團前高管摩根·麥肯尼（Morgan McKenney）為新任首席執行官。麥肯
在互聯網考古后，我被豆瓣上這座元宇宙古城征服了

最近一段時間，豆瓣可謂命途多舛：APP屢次下架，平臺也被相關部門約談、處罰，國家網信辦甚至派人入駐豆瓣以督促整改。有爆料稱豆瓣將陸續關閉“小組”功能：這個曾經小

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

谷歌最強模型 Gemini 2.5 Pro 發布即屠榜，創下史上最大分數飛躍紀錄

如何對一款 NFT 項目進行價值評估？

萬字專訪Vitalik Buterin：以太坊將成為主流和最安全的基礎層

《刀劍神域》VR展開幕；《Puzzling Places》發布第二個付費DLC

影響元宇宙土地價格的五個因素

參加元宇宙里的招聘會是什么樣一種體驗？

Snoop Dogg 計劃推出致力于數字媒體NFT的專業公司

對諷刺無動于衷，Nori將碳市場放在區塊鏈上

花旗集團前高管加入Provenance區塊鏈，擔任CEO

在互聯網考古后，我被豆瓣上這座元宇宙古城征服了

最新推薦

猜你喜歡

熱門推薦

相關資訊