Gemini 2.5 Pro,剛剛深夜上線了!這個「思考」模型專為復雜任務打造,推理能力強大,一經誕生就橫掃各大榜單、拿下各類 TOP 1,還創下了歷史上最大分數飛躍紀錄。
Gemini 2.5 Pro 是一個「思考」模型,能夠在回應前先進行思考推理,從而提升性能,并改善準確性。
谷歌稱,它是世界上最強大的模型,具備統一的推理能力,以及用戶所喜愛的 Gemini 的所有功能(長上下文、工具等)。
它在多個基準測試中達到了 SOTA 水平,并且以顯著的優勢在 LMArena 上排名第一。
現在,Gemini 2.5 Pro 已經登頂了 Arena 排行榜的第一位,而且創下了歷史最大分數飛躍,比 Grok-3 / GPT-4.5 整整高出了 40 分!
在代號「nebula」的測試中,它也橫掃所有類別奪得第一,并且獨攬數學、創意寫作、指令遵循、長查詢和多輪對話五大領域的冠軍!
在困難提示詞和編程兩大領域,它與 Grok-3 / GPT-4.5 拿到了并列冠軍,而且在所有其他比拼中都以微弱優勢勝出,成功問鼎榜首!
此外,Gemini 2.5 Pro 還成功登頂了視覺競技場(Vision Arena)排行榜榜首!
在網頁開發領域,它也同樣大放異彩,成功斬獲網頁開發競技場(WebDev Arena)亞軍寶座!
它是首個實力媲美 Claude 3.5 Sonnet 的模型,相比之前版本的 Gemini 更是實現了質的飛躍。
這一次,谷歌的模型又展現出巨大的飛躍,OpenAI、Anthropic、DeepSeek 等競爭對手,在多久時間內會趕上?
目前,Gemini 2.5 Pro 已在 Google AI Studio 和 Gemini 應用中,向 Gemini Advanced 用戶開放,并將很快在 Vertex AI 上推出。
而它的定價方案,會在未來幾周內公布,用戶可以在更高使用配額下,將模型應用于大規模生產環境。
網友實測后發現,它果然實力驚人,在所有模型中效果拔群,第一次嘗試就只用幾秒解決了一道難題。
谷歌表示,在 AI 領域,系統的「推理」能力不僅僅指分類和預測,而是指系統分析信息、得出邏輯結論、融入上下文和細微差別,以及做出明智決策的能力。
長期以來,谷歌一直在探索通過強化學習和思維鏈提示詞等技術,讓 AI 更智能、更具推理能力的方法。
正是在此基礎上,他們在 2 月推出了第一個思考模型,Gemini 2.0 Flash Thinking。
而今天,通過 Gemini 2.5,他們結合了顯著增強的基礎模型和改進的后期訓練,讓模型達到了新的性能水平。
推理和代碼能力大幅提升Gemini 2.5 Pro 展現出了強大的推理和代碼能力,在常見的編程、數學和科學基準測試中均處于領先地位。
另外,在各類需要高級推理能力的基準測試中,它都達到了 SOTA 水平。
無需使用測試階段會增加計算成本的技術(如多數投票法),2.5 Pro 就能在 GPQA 和 AIME 2025 等數學和科學基準評測中表現卓越。
而且,在不使用任何外部工具的條件下,它就在挑戰人類知識和推理能力的極限前沿「人類最后的考試」中取得了 18.8% 的準確率,達到業界領先。
在編程能力上,Gemini 2.5 相比 2.0 版本也實現了質的飛躍,而這,僅僅是個開始。
2.5 Pro 在創建視覺精美的網頁應用和 AI 智能體代碼應用方面都表現卓越,在代碼轉換和編輯領域中,也同樣實力出色。
在智能體代碼評估的行業標準測試 SWE-Bench Verified 上,Gemini 2.5 Pro 靠使用自定義智能體配置,就獲得了 63.8% 的優異成績。
以下這波 demo,就展示了 Gemini 2.5 Pro 如何運用強大推理,僅通過一行提示詞,就能生成可執行代碼,來創建完整的動畫和游戲。
在下面這個 demo 中,僅僅根據下面這行 prompt,它就生成了一段 p5js 的交互式動畫,展示了「宇宙魚」的場景,并且還顯示了魚們都在想什么。
它還根據以下 prompt,生成了一個無限的恐龍跑酷游戲。
按照要求,它生成了像素化的恐龍圖像和有趣的游戲背景。
隨后,Gemini 2.5 Pro 還通過編程實現了分形可視化。
它創建出了精細分形圖案的模擬程序,展現出了神奇的曼德布洛特集合。
此外,它還能構建一個交互式氣泡圖,直觀展示出了每個大陸的經濟與健康指標隨時間的變化。
或者用一段交互式的 Javascript 動畫,展示了旋轉六邊形內多彩的人工生命群體,并且按要求做成了「超新星星云」的感覺。
另外,它還能開發粒子系統模擬,給出了一個 HTML 文件,創造出了反射星云的沉浸式交互模擬場景。
Gemini 2.5 繼承并發揚了 Gemini 模型的優勢 —— 原生多模態能力和超長上下文長度。
自己發布之初,2.5 Pro 就支持 100 萬 token 的上下文窗口(而 200 萬 token 也即將推出!),性能顯著超越了前代模型。
這能讓它理解海量數據集,并處理來自多種信息源的復雜問題,包括文本、音頻、圖像、視頻,甚至完整的代碼倉庫。
最后,既然谷歌已經掏出了地表最強模型,接下來,就讓我們坐等 OpenAI 的反應了。
參考資料:
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025/#gemini-2-5-thinking
https://deepmind.google/technologies/gemini/pro/
https://x.com/lmarena_ai/status/1904581128746656099
本文鏈接:http://www.tebozhan.com/showinfo-45-11766-0.html谷歌最強模型 Gemini 2.5 Pro 發布即屠榜,創下史上最大分數飛躍紀錄
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com