AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

新研究揭示 DeepSeek o3 弱點:頻繁切換思路放棄正確方向,最短答案往往就是對的

來源: 責編: 時間:2025-02-05 15:44:00 37觀看
導(dǎo)讀 DeepSeek 和 o1 / o3 一類推理大模型持續(xù)帶來震撼之際,有人開始研究他們的弱點了。最新研究揭示:在遇到高難度問題時,推理大模型可能像“三心二意的學生”一樣頻繁切換解題思路,卻因缺乏深入探索而失敗 —— 這種

DeepSeek 和 o1 / o3 一類推理大模型持續(xù)帶來震撼之際,有人開始研究他們的弱點了。0Wu28資訊網(wǎng)——每日最新資訊28at.com

最新研究揭示:在遇到高難度問題時,推理大模型可能像“三心二意的學生”一樣頻繁切換解題思路,卻因缺乏深入探索而失敗 —— 這種現(xiàn)象被研究者稱為 Underthinking(欠思考)。0Wu28資訊網(wǎng)——每日最新資訊28at.com

0Wu28資訊網(wǎng)——每日最新資訊28at.com

研究團隊來自騰訊 AI 實驗室、蘇州大學和上海交通大學,主要研究對象是開源的 DeepSeek-R1 和 Qwen QwQ 系列模型。0Wu28資訊網(wǎng)——每日最新資訊28at.com

0Wu28資訊網(wǎng)——每日最新資訊28at.com

通過分析 AI 的錯誤答案,他們發(fā)現(xiàn)當前的推理大模型經(jīng)常在思考早期就走上了正確的路線,但傾向于“淺嘗輒止”,很快開始探索別的思路,導(dǎo)致后續(xù)生成的數(shù)千個 tokens 對解題毫無貢獻。0Wu28資訊網(wǎng)——每日最新資訊28at.com

這種“無效努力”不僅浪費計算資源,還顯著降低了答案的正確率。0Wu28資訊網(wǎng)——每日最新資訊28at.com

“三心二意”是罪魁禍首

這一現(xiàn)象在解決數(shù)學競賽題等更為復(fù)雜任務(wù)時尤為明顯。0Wu28資訊網(wǎng)——每日最新資訊28at.com

為了系統(tǒng)分析,團隊在三個具有挑戰(zhàn)性的測試集 MATH500、GPQA Diamond 和 AIME2024 上,對類 o1 模型 QwQ-32B-Preview、DeepSeek-R1-671B 等進行了實驗。0Wu28資訊網(wǎng)——每日最新資訊28at.com

下圖比較了正確和錯誤回答中的 token 使用量和思維切換次數(shù)。平均來看,類 o1 模型在錯誤回答中比正確回答多消耗了 225% 的 token,原因是思維切換頻率增加了 418%。0Wu28資訊網(wǎng)——每日最新資訊28at.com

0Wu28資訊網(wǎng)——每日最新資訊28at.com

為了深入分析這一現(xiàn)象,研究團隊開發(fā)了一套評估框架,用于判斷被放棄的推理路徑是否實際上足以推導(dǎo)出正確答案。0Wu28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果觀察到,許多模型在回答開頭階段的思路是正確的,但并未繼續(xù)深入完成推理。0Wu28資訊網(wǎng)——每日最新資訊28at.com

0Wu28資訊網(wǎng)——每日最新資訊28at.com

超過 70% 的錯誤回答中至少包含一個正確的思路。此外,在超過 50% 的錯誤回答中,有 10% 以上的思路是正確的。0Wu28資訊網(wǎng)——每日最新資訊28at.com

0Wu28資訊網(wǎng)——每日最新資訊28at.com

如下圖所示的例子,例如,Thought 1 通過識別給定方程類似于以 (0,0) 和 (20,11) 為中心的橢圓方程,啟動了正確的解釋。將兩個表達式設(shè)為相等,是尋找滿足這兩個方程的公共點 (x, y) 的有效方法。0Wu28資訊網(wǎng)——每日最新資訊28at.com

然而,模型并未專注于深入探索這一合理思路,使用進一步的代數(shù)操作和優(yōu)化技術(shù)進行分析,而是頻繁切換思路,額外消耗了約 7270 個 token,卻依然未能得出正確答案。0Wu28資訊網(wǎng)——每日最新資訊28at.com

最終,它得出一個缺乏擴展 COT 過程支持的猜測答案。0Wu28資訊網(wǎng)——每日最新資訊28at.com

0Wu28資訊網(wǎng)——每日最新資訊28at.com

基于這些觀察,研究人員提出了一個用于量化 Underthinking 程度的指標(Underthinking Metric)。0Wu28資訊網(wǎng)——每日最新資訊28at.com

0Wu28資訊網(wǎng)——每日最新資訊28at.com

這個指標通過測量錯誤答案中的 token 使用效率來評估推理效率,計算從回答開始到第一個正確思路出現(xiàn)所需的 token 數(shù)量與總 token 數(shù)量的比值。0Wu28資訊網(wǎng)——每日最新資訊28at.com

實驗結(jié)果表明,所有測試的類 o1 模型都存在顯著的思維不足問題。模型的準確率與思維不足之間的關(guān)系在不同數(shù)據(jù)集上表現(xiàn)各異。0Wu28資訊網(wǎng)——每日最新資訊28at.com

在 MATH500-Hard 和 GPQA Diamond 數(shù)據(jù)集上,性能更優(yōu)的 DeepSeek-R1-671B 模型在取得更高準確率的同時,其 UT 得分也更高,表明錯誤回答中存在更多思維不足。0Wu28資訊網(wǎng)——每日最新資訊28at.com

這意味著,盡管模型整體能力更強,但在不確定時可能生成更長但效率較低的推理過程,可能是因為模型探索了多個錯誤的推理路徑,卻未能有效收斂到正確解答。0Wu28資訊網(wǎng)——每日最新資訊28at.com

相反,在 AIME2024 測試集中,DeepSeek-R1-671B 模型不僅取得了更高的準確率,還表現(xiàn)出較低的 UT 得分,反映出較少的思維不足和更高的 token 效率。0Wu28資訊網(wǎng)——每日最新資訊28at.com

這表明模型在該任務(wù)中,即使未得出正確答案,其推理過程依然保持專注和高效,團隊表示這可能是因為模型與 AIME2024 所要求的問題類型和推理過程更好地對齊。0Wu28資訊網(wǎng)——每日最新資訊28at.com

0Wu28資訊網(wǎng)——每日最新資訊28at.com

理解思維不足現(xiàn)象對于開發(fā)能夠提供正確答案并具備有效推理過程的模型至關(guān)重要。0Wu28資訊網(wǎng)——每日最新資訊28at.com

如何讓 AI 學會“一心一意”

如何讓模型像優(yōu)秀學生一樣“沉下心來鉆研”?0Wu28資訊網(wǎng)——每日最新資訊28at.com

研究者借鑒了人類考試策略,提出了一種“思路切換懲罰機制”(Thought Switching Penalty,TIP)。其原理類似于考試時給自己定規(guī)矩:“先專注當前方法,至少嘗試 10 分鐘再換思路”。0Wu28資訊網(wǎng)——每日最新資訊28at.com

技術(shù)細節(jié)上,TIP 會對觸發(fā)思路切換的關(guān)鍵詞施加懲罰,降低這些詞在解碼過程中的生成概率,迫使模型在當前路徑上探索更久。0Wu28資訊網(wǎng)——每日最新資訊28at.com

例如,當模型開始寫“Alternatively, we can consider…”時,TIP 會通過調(diào)整參數(shù)(懲罰強度 α 和持續(xù)時間 β),抑制這種過早的切換傾向。0Wu28資訊網(wǎng)——每日最新資訊28at.com

0Wu28資訊網(wǎng)——每日最新資訊28at.com

實驗結(jié)果顯示,加入 TIP 能讓模型在數(shù)學測試上的準確率上升,同時 UT Score 下降,說明既減少了無效切換,又提高了答案質(zhì)量。0Wu28資訊網(wǎng)——每日最新資訊28at.com

例如在 AIME2024 數(shù)學競賽測試上,加入 TIP 的 QwQ-32B-Preview 模型準確率從 41.7% 提升至 45.8%,同時 UT Score 從 72.4 降至 68.2。0Wu28資訊網(wǎng)——每日最新資訊28at.com

0Wu28資訊網(wǎng)——每日最新資訊28at.com

并且這種“無痛升級”無需重新訓(xùn)練模型,僅需調(diào)整解碼策略,展現(xiàn)了其實用價值。0Wu28資訊網(wǎng)——每日最新資訊28at.com

One More Thing

UC Berkeley 教授 Alex Dimakis 幾乎同時分享了類似的觀察,0Wu28資訊網(wǎng)——每日最新資訊28at.com

對于 DeepSeek-R1 和所有推理模型,錯誤的答案更長,而正確的答案要短得多。0Wu28資訊網(wǎng)——每日最新資訊28at.com

基于此,他們提出一個簡單的解決辦法,稱為“簡潔解碼”(Laconic decoding)。0Wu28資訊網(wǎng)——每日最新資訊28at.com

并行運行 5 次模型,從答案中選擇 tokens 最少的。0Wu28資訊網(wǎng)——每日最新資訊28at.com

初步實驗結(jié)果表示,簡潔解碼在 AIME2024 測試上能提高 6%-7% 的準確率,比 Consensus Decoding 更好也更快。0Wu28資訊網(wǎng)——每日最新資訊28at.com

0Wu28資訊網(wǎng)——每日最新資訊28at.com

論文地址:https://arxiv.org/ abs / 2501.18585

參考鏈接:0Wu28資訊網(wǎng)——每日最新資訊28at.com

[1]https://x.com/tuzhaopeng/status/18851794121630274060Wu28資訊網(wǎng)——每日最新資訊28at.com

[2]https://x.com/AlexGDimakis/status/18854478301203620990Wu28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:夢晨西風0Wu28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-10450-0.html新研究揭示 DeepSeek o3 弱點:頻繁切換思路放棄正確方向,最短答案往往就是對的

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: DeepSeek 威脅下,OpenAI 稱考慮開源舊 AI 模型

下一篇: 小鵬汽車放大招!5年0息0首付購車,最高貼息5.7萬引關(guān)注

標簽:
  • 熱門焦點
  • 元宇宙的文旅賽道,還能如何發(fā)力?

    來源:X增強現(xiàn)實蘋果推出Vision Pro,為XR行業(yè)注入一劑強心針。而在蘋果開發(fā)者大會上迪士尼CEO鮑勃·艾格在宣布迪士尼與蘋果達成合作,其Disney+流媒體服務(wù)將于Vision Pro
  • 亞馬遜AIGC全家桶來襲,巨頭AI大亂戰(zhàn)都有什么殺手锏

    此前,亞馬遜云科技發(fā)布多款A(yù)IGC產(chǎn)品,其中包括AI大模型服務(wù)Amazon Bedrock、人工智能計算實例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”(Titan)AI大模型、軟件
  • 元宇宙步入暗夜

    撰文 | 文燁豪元宇宙的故事,似乎講不通了。 當下,刮起元宇宙熱潮的Roblox股價已跌去大半,帶頭大哥Meta也正因元宇宙虧損深陷泥潭。 再看國內(nèi),從字節(jié)“派對島&
  • AI特效、虛擬人、數(shù)字盲盒,來看看元宇宙如何融合冬奧會!

    今天是冬奧會比賽的第12天,截至目前所累計的成績,中國代表團已經(jīng)取得了冬奧歷史最佳戰(zhàn)績。全世界的人都在關(guān)注著這場盛事,為奧運健兒吶喊助威。谷愛凌、徐夢桃、
  • 中國銀保監(jiān)管委提示:謹慎投資,勿做接盤俠

    中國銀保監(jiān)管委,發(fā)布一則風險提示,內(nèi)容圍繞防范以“元宇宙”名義進行的非法集資風險。原文如下:近期,一些不法分子蹭熱點,以“元宇宙投資項目”“元宇宙鏈游”等名
  • 頂級NFT收藏家Gary Vaynerchuk 與百威推出NFT

    特別聲明,我們的文章不作為投資建議,請各位讀者獨立思考,還是那句話:投資要慎之又慎,誰也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
  • 冬奧會數(shù)字收藏品升溫,市場再現(xiàn)“一墩難求”

    根據(jù)公開信息顯示,國際奧委會官方授權(quán)的冰墩墩數(shù)字盲盒于北京時間2月12日凌晨在nWayPlay平臺發(fā)售,總數(shù)為500個,每個99美元,每人限購5個。此外,不同的奧運徽章數(shù)字藏
  • 76億美金估值、2022年最具創(chuàng)新力公司,Dapper Labs如何做到?

    “元宇宙的開拓者”是我們針對元宇宙的發(fā)展而設(shè)立的專欄,主要面向那些深挖元宇宙產(chǎn)業(yè)或者在元宇宙進行“淘金”的從業(yè)者,分享這些企業(yè)或者創(chuàng)業(yè)者們的故事,以獨特
  • 全球十大元宇宙概念游戲

    A股市場中,不少游戲公司早早搭上了元宇宙概念。舉例,中青寶宣稱將發(fā)布一款元宇宙概念的模擬經(jīng)營類游戲,盡管游戲尚在研發(fā)中,這一消息已經(jīng)讓中青寶的股價在51個交易
Top