AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

斯坦福揭秘 o1-preview 軟肋:數學競賽題稍作修改,準確率驟降 30%

來源: 責編: 時間:2025-02-02 18:40:35 75觀看
導讀 斯坦福大學最近的一項研究發現,盡管 o1-preview 在數學、代碼等領域能力逆天,但只要對數學競賽的題目稍修改,模型解答的準確率竟會立刻下降 30%。在數學競賽的領域里,普特南數學競賽的威名可謂如雷貫耳。它由 Wil

斯坦福大學最近的一項研究發現,盡管 o1-preview 在數學、代碼等領域能力逆天,但只要對數學競賽的題目稍修改,模型解答的準確率竟會立刻下降 30%。JWX28資訊網——每日最新資訊28at.com

在數學競賽的領域里,普特南數學競賽的威名可謂如雷貫耳。它由 William Lowell Putnam 家族發起,自 1938 年首屆舉辦以來,歷經 66 年的歲月沉淀,已然成為全球大學生數學精英們一較高下的頂級賽場。JWX28資訊網——每日最新資訊28at.com

美國數學會的精心主辦,加上哈佛大學、多倫多大學等名校學子的踴躍參與,讓這項賽事的桂冠成為無數學子夢寐以求的殊榮,其權威性和挑戰性,那是得到了全球學界的公認。JWX28資訊網——每日最新資訊28at.com

而最近,來自斯坦福的一項研究,卻讓大家驚掉了下巴:僅僅對題目中的變量、常量等要素稍作修改,大模型「尖子生」o1-preview 模型的準確率就立刻大幅下降,降幅高達 30%!JWX28資訊網——每日最新資訊28at.com

JWX28資訊網——每日最新資訊28at.com

原文鏈接:https://openreview.net/ forum?id=YXnwlZe0yf&noteId=yrsGpHd0SfJWX28資訊網——每日最新資訊28at.com

這就好比一位武林高手,平時在熟悉的招式里威風八面,一旦對手換個路數,就立馬亂了陣腳。這不禁讓人好奇,這些難住最強推理模型的變體題,到底藏著怎樣的玄機?JWX28資訊網——每日最新資訊28at.com

北美最難數學競賽題「變臉」,AI 有點懵

OpenAI 的 o1-preview 模型自出道以來,憑借超強的推理能力,在各個領域大殺四方。JWX28資訊網——每日最新資訊28at.com

就拿編程來說,在 Codeforces 編程競賽這個「高手如云」的賽場上,它的 Elo 評分高達 1807,把 93% 的競爭對手都遠遠甩在身后,寫起代碼來又快又準,就像一位經驗老道的程序員。JWX28資訊網——每日最新資訊28at.com

在數學領域更是展現出了驚人的實力。2024 年的美國數學邀請賽(AIME)題目集上,o1-preview 的正確率高達 83%,相當于全美參賽選手 top500 的水平。JWX28資訊網——每日最新資訊28at.com

JWX28資訊網——每日最新資訊28at.com

醫學診斷方面,哈佛醫學院和斯坦福大學組成的科研團隊曾對 o1-preview 進行過全方位的 「考核」,結果令人驚嘆:在生成診斷意見、診斷臨床推理和管理推理這些關鍵任務上,它甚至超越了人類醫生。面對復雜的病例,它能快速分析癥狀、病史等信息,并給出準確的診斷建議。JWX28資訊網——每日最新資訊28at.com

然而,就是這樣一個在多領域「開掛」的模型,在面對普特南數學競賽題的變體時,卻仿佛迷失了方向。JWX28資訊網——每日最新資訊28at.com

在原始題目上,o1-preview 本能達到 41.95% 的準確率,而一旦題目中的變量、常量被修改,準確率就像坐了滑梯一樣,直線下降約 30%。JWX28資訊網——每日最新資訊28at.com

JWX28資訊網——每日最新資訊28at.com

這巨大的反差,背后其實有著深層次的原因。普特南競賽題本就以超高的難度、獨特的出題思路著稱,原始題目和變體題目之間,雖然看似只有細微的差別,但這些改變往往涉及到數學概念的深層次運用和邏輯結構的巧妙變換。JWX28資訊網——每日最新資訊28at.com

o1-preview 模型在訓練過程中,可能更多是對常見的數學題型、編程模式、醫學案例進行學習和優化,對于這種專門設計、極度刁鉆的變體題,缺乏足夠的「應對經驗」,難以迅速抓住問題的關鍵,從而導致準確率大幅下滑。JWX28資訊網——每日最新資訊28at.com

Putnam-AXIOM 基準,AI 數學能力的「試金石」

為了更準確深入地評估 AI 大模型的數學能力,研究團隊精心打造了 Putnam-AXIOM Original 基準,收納了來自歷年普特南數學競賽(Putnam)的 236 個數學問題,從復雜的代數變換到精妙的幾何證明,從抽象的數論難題到變幻莫測的組合數學謎題,無一不是對人類智慧極限的挑戰。JWX28資訊網——每日最新資訊28at.com

但這項基準的價值遠不止于收錄原題,更厲害的是,研究者們設計了一套巧妙的程序化修改機制,可以對問題中的變量、常量等關鍵要素進行修改,從而生成無限多個全新且難度相當的問題。JWX28資訊網——每日最新資訊28at.com

JWX28資訊網——每日最新資訊28at.com

比如說,把一個幾何問題中的邊長數值進行變換,或者改變函數題中的參數取值范圍,這些看似微小的調整,卻能讓整個問題的解法路徑大不相同。JWX28資訊網——每日最新資訊28at.com

而且,這些新生成的題目從未在互聯網上出現過,因此也不可能泄露到任何模型的訓練數據集中,完全杜絕了 AI 靠 「死記硬背」答案來作弊的可能,真正做到了對 AI 數學推理能力的精準探測。JWX28資訊網——每日最新資訊28at.com

在這個新設計的基準上,研究人員大范圍選擇了各種模型進行測試,包括 OpenAI 的 o1-preview、GPT-4 和 GPT-4o,Anthropic 的旗艦模型 Claude-3.5 Sonnet,Llama、Qwen 的等有影響力的開源模型,以及 Gemma、Mistral、DeepSeek、Numina 等以數學能力聞名的開源模型。JWX28資訊網——每日最新資訊28at.com

首先,將 Putnam-AXIOM 基準中的 236 道原題輸入給各個模型,記錄它們的解題時間、推理步驟以及最終答案,算出準確率。接著,把經過程序化修改后的變體題拋給這些模型,同樣嚴格記錄解題過程中各項數據。JWX28資訊網——每日最新資訊28at.com

在原始題目上,o1-preview 模型以 41.95% 的準確率暫居榜首,可一旦切換到變體題,它的準確率就「跳水」到了 11.95% 左右,足足下降了 30 個百分點。JWX28資訊網——每日最新資訊28at.com

其他模型的準確率滑坡也相當顯著,但值得注意的是,Gemma 和 Mistral 系列模型中的某些型號在變體題上的準確率不降反升。JWX28資訊網——每日最新資訊28at.com

JWX28資訊網——每日最新資訊28at.com

這些數據背后,反映出的問題相當深刻。一方面,當前的 AI 模型,哪怕是最頂尖的,在面對數學問題的靈活變化時適應性較差。它們可能對大規模數據訓練出來的固定模式有一定依賴,一旦題目超出了熟悉的套路就會出現顯著滑坡。JWX28資訊網——每日最新資訊28at.com

另一方面,普特南競賽題的變體設計,精準地擊中了 AI 的「軟肋」,這也為未來 AI 模型的訓練和提升指明了另一種方向。JWX28資訊網——每日最新資訊28at.com

參考資料:JWX28資訊網——每日最新資訊28at.com

https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0SfJWX28資訊網——每日最新資訊28at.com

本文來自微信公眾號:新智元(ID:AI_era)原文標題:《斯坦福揭秘 o1-preview 軟肋!數學競賽題稍作修改,準確率驟降 30%》JWX28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-10384-0.html斯坦福揭秘 o1-preview 軟肋:數學競賽題稍作修改,準確率驟降 30%

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 英特爾 Falcon Shores GPU 止步,戰略轉向 AI 系統級解決方案

下一篇: 突破瓶頸,百度 EICopilot AI 提升企業知識圖譜利用率

標簽:
  • 熱門焦點
  • 新周期,誰在堅守窄門?

    來源:錦緞今日的投資者恐怕已經忘記了,在OpenAI創造出ChatGPT這一殺器的前夜,生成式AI也曾經是一道窄門,窄到連馬斯克都差點失去了信心。在當時的輿論眼中,AGI的道路不夠性感,不夠
  • 雷克薩斯高管,“受賄”5000萬?

    來源:毒舌科技作者:潘磊雷克薩斯的高管,好像出事了。五六家日本小媒體,突然曝出了一個與中國市場有關的大新聞——雷克薩斯中國區一個高管受賄10億日元(約合人民幣5000
  • 星展銀行(DBS)計劃推出零售數字資產交易服務

    2月14日消息,新加坡星展銀行CEO Piyush Gupta在財報會議上表示,計劃于2022年年底前推出零售數字資產交易服務。據悉,DBS于2021年初開設了機構數字資產交易平臺,全
  • 中國區塊鏈產業生態地圖報告(2021)

    區塊鏈是技術整合創新、金融創新、組織方式創新、產業應用創新的多維度創新,以服務實體經濟、政務民生以及公共服務等領域為落腳點,以期實現整個地區和產業的資
  • 新款英特爾芯片將使NFT鑄造變得更加方便

    科技巨頭和微處理器制造商英特爾(Intel)正在發布一款適用于 NFT 鑄造和挖礦的新芯片。新產品專注于效率、易操作性和可持續性,該公司的戰略是從加密興起與 NFT爆
  • 借VR產業東風,江西搶灘布局“元宇宙”

    自2016年起就在VR上傾注了大量精力的江西省,迅速搭上了“元宇宙”。VR、AR等技術是通往元宇宙的關鍵接口,使人們可以在數字空間和物理空間自由穿梭。自2016年起
  • DAO登上了歷史舞臺,但是主流準備好采用DAO了嗎?

    Block-807DAO要么是定義虛擬未來、無領導組織的革命性概念,要么是充滿存在主義和自我毀滅挑戰的反烏托邦結構,取決于你在與誰交談。近幾個月來, DAO已經從Crypto
  • 為什么元宇宙將永遠改變體育和你的生活?

    自從Facebook更名為Meta以來,Metaverse這個詞已經被大家所熟知。但是當Metaverse仍然被許多人視為一個虛擬的平行世界時,一些項目已經顯示出Metaverse將如何永遠
  • HTC Vive推出元宇宙平臺Viverse;騰訊投資小米生態鏈AR眼鏡廠商

    今日熱點:HTC Vive正式推出元宇宙平臺Viverse;騰訊投資小米生態鏈AR眼鏡廠商北京蜂巢科技;面部追蹤和眼動追蹤是Quest下一版本的“重點”;索尼PSVR 2將推遲至2023
Top