AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

斯坦福揭秘 o1-preview 軟肋:數(shù)學競賽題稍作修改,準確率驟降 30%

來源: 責編: 時間:2025-02-02 18:40:35 32觀看
導讀 斯坦福大學最近的一項研究發(fā)現(xiàn),盡管 o1-preview 在數(shù)學、代碼等領域能力逆天,但只要對數(shù)學競賽的題目稍修改,模型解答的準確率竟會立刻下降 30%。在數(shù)學競賽的領域里,普特南數(shù)學競賽的威名可謂如雷貫耳。它由 Wil

斯坦福大學最近的一項研究發(fā)現(xiàn),盡管 o1-preview 在數(shù)學、代碼等領域能力逆天,但只要對數(shù)學競賽的題目稍修改,模型解答的準確率竟會立刻下降 30%。1ag28資訊網(wǎng)——每日最新資訊28at.com

在數(shù)學競賽的領域里,普特南數(shù)學競賽的威名可謂如雷貫耳。它由 William Lowell Putnam 家族發(fā)起,自 1938 年首屆舉辦以來,歷經(jīng) 66 年的歲月沉淀,已然成為全球大學生數(shù)學精英們一較高下的頂級賽場。1ag28資訊網(wǎng)——每日最新資訊28at.com

美國數(shù)學會的精心主辦,加上哈佛大學、多倫多大學等名校學子的踴躍參與,讓這項賽事的桂冠成為無數(shù)學子夢寐以求的殊榮,其權威性和挑戰(zhàn)性,那是得到了全球?qū)W界的公認。1ag28資訊網(wǎng)——每日最新資訊28at.com

而最近,來自斯坦福的一項研究,卻讓大家驚掉了下巴:僅僅對題目中的變量、常量等要素稍作修改,大模型「尖子生」o1-preview 模型的準確率就立刻大幅下降,降幅高達 30%!1ag28資訊網(wǎng)——每日最新資訊28at.com

1ag28資訊網(wǎng)——每日最新資訊28at.com

原文鏈接:https://openreview.net/ forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf1ag28資訊網(wǎng)——每日最新資訊28at.com

這就好比一位武林高手,平時在熟悉的招式里威風八面,一旦對手換個路數(shù),就立馬亂了陣腳。這不禁讓人好奇,這些難住最強推理模型的變體題,到底藏著怎樣的玄機?1ag28資訊網(wǎng)——每日最新資訊28at.com

北美最難數(shù)學競賽題「變臉」,AI 有點懵

OpenAI 的 o1-preview 模型自出道以來,憑借超強的推理能力,在各個領域大殺四方。1ag28資訊網(wǎng)——每日最新資訊28at.com

就拿編程來說,在 Codeforces 編程競賽這個「高手如云」的賽場上,它的 Elo 評分高達 1807,把 93% 的競爭對手都遠遠甩在身后,寫起代碼來又快又準,就像一位經(jīng)驗老道的程序員。1ag28資訊網(wǎng)——每日最新資訊28at.com

在數(shù)學領域更是展現(xiàn)出了驚人的實力。2024 年的美國數(shù)學邀請賽(AIME)題目集上,o1-preview 的正確率高達 83%,相當于全美參賽選手 top500 的水平。1ag28資訊網(wǎng)——每日最新資訊28at.com

1ag28資訊網(wǎng)——每日最新資訊28at.com

醫(yī)學診斷方面,哈佛醫(yī)學院和斯坦福大學組成的科研團隊曾對 o1-preview 進行過全方位的 「考核」,結果令人驚嘆:在生成診斷意見、診斷臨床推理和管理推理這些關鍵任務上,它甚至超越了人類醫(yī)生。面對復雜的病例,它能快速分析癥狀、病史等信息,并給出準確的診斷建議。1ag28資訊網(wǎng)——每日最新資訊28at.com

然而,就是這樣一個在多領域「開掛」的模型,在面對普特南數(shù)學競賽題的變體時,卻仿佛迷失了方向。1ag28資訊網(wǎng)——每日最新資訊28at.com

在原始題目上,o1-preview 本能達到 41.95% 的準確率,而一旦題目中的變量、常量被修改,準確率就像坐了滑梯一樣,直線下降約 30%。1ag28資訊網(wǎng)——每日最新資訊28at.com

1ag28資訊網(wǎng)——每日最新資訊28at.com

這巨大的反差,背后其實有著深層次的原因。普特南競賽題本就以超高的難度、獨特的出題思路著稱,原始題目和變體題目之間,雖然看似只有細微的差別,但這些改變往往涉及到數(shù)學概念的深層次運用和邏輯結構的巧妙變換。1ag28資訊網(wǎng)——每日最新資訊28at.com

o1-preview 模型在訓練過程中,可能更多是對常見的數(shù)學題型、編程模式、醫(yī)學案例進行學習和優(yōu)化,對于這種專門設計、極度刁鉆的變體題,缺乏足夠的「應對經(jīng)驗」,難以迅速抓住問題的關鍵,從而導致準確率大幅下滑。1ag28資訊網(wǎng)——每日最新資訊28at.com

Putnam-AXIOM 基準,AI 數(shù)學能力的「試金石」

為了更準確深入地評估 AI 大模型的數(shù)學能力,研究團隊精心打造了 Putnam-AXIOM Original 基準,收納了來自歷年普特南數(shù)學競賽(Putnam)的 236 個數(shù)學問題,從復雜的代數(shù)變換到精妙的幾何證明,從抽象的數(shù)論難題到變幻莫測的組合數(shù)學謎題,無一不是對人類智慧極限的挑戰(zhàn)。1ag28資訊網(wǎng)——每日最新資訊28at.com

但這項基準的價值遠不止于收錄原題,更厲害的是,研究者們設計了一套巧妙的程序化修改機制,可以對問題中的變量、常量等關鍵要素進行修改,從而生成無限多個全新且難度相當?shù)膯栴}。1ag28資訊網(wǎng)——每日最新資訊28at.com

1ag28資訊網(wǎng)——每日最新資訊28at.com

比如說,把一個幾何問題中的邊長數(shù)值進行變換,或者改變函數(shù)題中的參數(shù)取值范圍,這些看似微小的調(diào)整,卻能讓整個問題的解法路徑大不相同。1ag28資訊網(wǎng)——每日最新資訊28at.com

而且,這些新生成的題目從未在互聯(lián)網(wǎng)上出現(xiàn)過,因此也不可能泄露到任何模型的訓練數(shù)據(jù)集中,完全杜絕了 AI 靠 「死記硬背」答案來作弊的可能,真正做到了對 AI 數(shù)學推理能力的精準探測。1ag28資訊網(wǎng)——每日最新資訊28at.com

在這個新設計的基準上,研究人員大范圍選擇了各種模型進行測試,包括 OpenAI 的 o1-preview、GPT-4 和 GPT-4o,Anthropic 的旗艦模型 Claude-3.5 Sonnet,Llama、Qwen 的等有影響力的開源模型,以及 Gemma、Mistral、DeepSeek、Numina 等以數(shù)學能力聞名的開源模型。1ag28資訊網(wǎng)——每日最新資訊28at.com

首先,將 Putnam-AXIOM 基準中的 236 道原題輸入給各個模型,記錄它們的解題時間、推理步驟以及最終答案,算出準確率。接著,把經(jīng)過程序化修改后的變體題拋給這些模型,同樣嚴格記錄解題過程中各項數(shù)據(jù)。1ag28資訊網(wǎng)——每日最新資訊28at.com

在原始題目上,o1-preview 模型以 41.95% 的準確率暫居榜首,可一旦切換到變體題,它的準確率就「跳水」到了 11.95% 左右,足足下降了 30 個百分點。1ag28資訊網(wǎng)——每日最新資訊28at.com

其他模型的準確率滑坡也相當顯著,但值得注意的是,Gemma 和 Mistral 系列模型中的某些型號在變體題上的準確率不降反升。1ag28資訊網(wǎng)——每日最新資訊28at.com

1ag28資訊網(wǎng)——每日最新資訊28at.com

這些數(shù)據(jù)背后,反映出的問題相當深刻。一方面,當前的 AI 模型,哪怕是最頂尖的,在面對數(shù)學問題的靈活變化時適應性較差。它們可能對大規(guī)模數(shù)據(jù)訓練出來的固定模式有一定依賴,一旦題目超出了熟悉的套路就會出現(xiàn)顯著滑坡。1ag28資訊網(wǎng)——每日最新資訊28at.com

另一方面,普特南競賽題的變體設計,精準地擊中了 AI 的「軟肋」,這也為未來 AI 模型的訓練和提升指明了另一種方向。1ag28資訊網(wǎng)——每日最新資訊28at.com

參考資料:1ag28資訊網(wǎng)——每日最新資訊28at.com

https://openreview.net/forum?id=YXnwlZe0yf&noteId=yrsGpHd0Sf1ag28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:新智元(ID:AI_era)原文標題:《斯坦福揭秘 o1-preview 軟肋!數(shù)學競賽題稍作修改,準確率驟降 30%》1ag28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-10384-0.html斯坦福揭秘 o1-preview 軟肋:數(shù)學競賽題稍作修改,準確率驟降 30%

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 英特爾 Falcon Shores GPU 止步,戰(zhàn)略轉(zhuǎn)向 AI 系統(tǒng)級解決方案

下一篇: 突破瓶頸,百度 EICopilot AI 提升企業(yè)知識圖譜利用率

標簽:
  • 熱門焦點
Top