AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

新研究揭示 DeepSeek o3 弱點:頻繁切換思路放棄正確方向,最短答案往往就是對的

來源: 責編: 時間:2025-02-05 15:44:00 80觀看
導讀 DeepSeek 和 o1 / o3 一類推理大模型持續帶來震撼之際,有人開始研究他們的弱點了。最新研究揭示:在遇到高難度問題時,推理大模型可能像“三心二意的學生”一樣頻繁切換解題思路,卻因缺乏深入探索而失敗 —— 這種

DeepSeek 和 o1 / o3 一類推理大模型持續帶來震撼之際,有人開始研究他們的弱點了。DjR28資訊網——每日最新資訊28at.com

最新研究揭示:在遇到高難度問題時,推理大模型可能像“三心二意的學生”一樣頻繁切換解題思路,卻因缺乏深入探索而失敗 —— 這種現象被研究者稱為 Underthinking(欠思考)。DjR28資訊網——每日最新資訊28at.com

DjR28資訊網——每日最新資訊28at.com

研究團隊來自騰訊 AI 實驗室、蘇州大學和上海交通大學,主要研究對象是開源的 DeepSeek-R1 和 Qwen QwQ 系列模型。DjR28資訊網——每日最新資訊28at.com

DjR28資訊網——每日最新資訊28at.com

通過分析 AI 的錯誤答案,他們發現當前的推理大模型經常在思考早期就走上了正確的路線,但傾向于“淺嘗輒止”,很快開始探索別的思路,導致后續生成的數千個 tokens 對解題毫無貢獻。DjR28資訊網——每日最新資訊28at.com

這種“無效努力”不僅浪費計算資源,還顯著降低了答案的正確率。DjR28資訊網——每日最新資訊28at.com

“三心二意”是罪魁禍首

這一現象在解決數學競賽題等更為復雜任務時尤為明顯。DjR28資訊網——每日最新資訊28at.com

為了系統分析,團隊在三個具有挑戰性的測試集 MATH500、GPQA Diamond 和 AIME2024 上,對類 o1 模型 QwQ-32B-Preview、DeepSeek-R1-671B 等進行了實驗。DjR28資訊網——每日最新資訊28at.com

下圖比較了正確和錯誤回答中的 token 使用量和思維切換次數。平均來看,類 o1 模型在錯誤回答中比正確回答多消耗了 225% 的 token,原因是思維切換頻率增加了 418%。DjR28資訊網——每日最新資訊28at.com

DjR28資訊網——每日最新資訊28at.com

為了深入分析這一現象,研究團隊開發了一套評估框架,用于判斷被放棄的推理路徑是否實際上足以推導出正確答案。DjR28資訊網——每日最新資訊28at.com

結果觀察到,許多模型在回答開頭階段的思路是正確的,但并未繼續深入完成推理。DjR28資訊網——每日最新資訊28at.com

DjR28資訊網——每日最新資訊28at.com

超過 70% 的錯誤回答中至少包含一個正確的思路。此外,在超過 50% 的錯誤回答中,有 10% 以上的思路是正確的。DjR28資訊網——每日最新資訊28at.com

DjR28資訊網——每日最新資訊28at.com

如下圖所示的例子,例如,Thought 1 通過識別給定方程類似于以 (0,0) 和 (20,11) 為中心的橢圓方程,啟動了正確的解釋。將兩個表達式設為相等,是尋找滿足這兩個方程的公共點 (x, y) 的有效方法。DjR28資訊網——每日最新資訊28at.com

然而,模型并未專注于深入探索這一合理思路,使用進一步的代數操作和優化技術進行分析,而是頻繁切換思路,額外消耗了約 7270 個 token,卻依然未能得出正確答案。DjR28資訊網——每日最新資訊28at.com

最終,它得出一個缺乏擴展 COT 過程支持的猜測答案。DjR28資訊網——每日最新資訊28at.com

DjR28資訊網——每日最新資訊28at.com

基于這些觀察,研究人員提出了一個用于量化 Underthinking 程度的指標(Underthinking Metric)。DjR28資訊網——每日最新資訊28at.com

DjR28資訊網——每日最新資訊28at.com

這個指標通過測量錯誤答案中的 token 使用效率來評估推理效率,計算從回答開始到第一個正確思路出現所需的 token 數量與總 token 數量的比值。DjR28資訊網——每日最新資訊28at.com

實驗結果表明,所有測試的類 o1 模型都存在顯著的思維不足問題。模型的準確率與思維不足之間的關系在不同數據集上表現各異。DjR28資訊網——每日最新資訊28at.com

在 MATH500-Hard 和 GPQA Diamond 數據集上,性能更優的 DeepSeek-R1-671B 模型在取得更高準確率的同時,其 UT 得分也更高,表明錯誤回答中存在更多思維不足。DjR28資訊網——每日最新資訊28at.com

這意味著,盡管模型整體能力更強,但在不確定時可能生成更長但效率較低的推理過程,可能是因為模型探索了多個錯誤的推理路徑,卻未能有效收斂到正確解答。DjR28資訊網——每日最新資訊28at.com

相反,在 AIME2024 測試集中,DeepSeek-R1-671B 模型不僅取得了更高的準確率,還表現出較低的 UT 得分,反映出較少的思維不足和更高的 token 效率。DjR28資訊網——每日最新資訊28at.com

這表明模型在該任務中,即使未得出正確答案,其推理過程依然保持專注和高效,團隊表示這可能是因為模型與 AIME2024 所要求的問題類型和推理過程更好地對齊。DjR28資訊網——每日最新資訊28at.com

DjR28資訊網——每日最新資訊28at.com

理解思維不足現象對于開發能夠提供正確答案并具備有效推理過程的模型至關重要。DjR28資訊網——每日最新資訊28at.com

如何讓 AI 學會“一心一意”

如何讓模型像優秀學生一樣“沉下心來鉆研”?DjR28資訊網——每日最新資訊28at.com

研究者借鑒了人類考試策略,提出了一種“思路切換懲罰機制”(Thought Switching Penalty,TIP)。其原理類似于考試時給自己定規矩:“先專注當前方法,至少嘗試 10 分鐘再換思路”。DjR28資訊網——每日最新資訊28at.com

技術細節上,TIP 會對觸發思路切換的關鍵詞施加懲罰,降低這些詞在解碼過程中的生成概率,迫使模型在當前路徑上探索更久。DjR28資訊網——每日最新資訊28at.com

例如,當模型開始寫“Alternatively, we can consider…”時,TIP 會通過調整參數(懲罰強度 α 和持續時間 β),抑制這種過早的切換傾向。DjR28資訊網——每日最新資訊28at.com

DjR28資訊網——每日最新資訊28at.com

實驗結果顯示,加入 TIP 能讓模型在數學測試上的準確率上升,同時 UT Score 下降,說明既減少了無效切換,又提高了答案質量。DjR28資訊網——每日最新資訊28at.com

例如在 AIME2024 數學競賽測試上,加入 TIP 的 QwQ-32B-Preview 模型準確率從 41.7% 提升至 45.8%,同時 UT Score 從 72.4 降至 68.2。DjR28資訊網——每日最新資訊28at.com

DjR28資訊網——每日最新資訊28at.com

并且這種“無痛升級”無需重新訓練模型,僅需調整解碼策略,展現了其實用價值。DjR28資訊網——每日最新資訊28at.com

One More Thing

UC Berkeley 教授 Alex Dimakis 幾乎同時分享了類似的觀察,DjR28資訊網——每日最新資訊28at.com

對于 DeepSeek-R1 和所有推理模型,錯誤的答案更長,而正確的答案要短得多。DjR28資訊網——每日最新資訊28at.com

基于此,他們提出一個簡單的解決辦法,稱為“簡潔解碼”(Laconic decoding)。DjR28資訊網——每日最新資訊28at.com

并行運行 5 次模型,從答案中選擇 tokens 最少的。DjR28資訊網——每日最新資訊28at.com

初步實驗結果表示,簡潔解碼在 AIME2024 測試上能提高 6%-7% 的準確率,比 Consensus Decoding 更好也更快。DjR28資訊網——每日最新資訊28at.com

DjR28資訊網——每日最新資訊28at.com

論文地址:https://arxiv.org/ abs / 2501.18585

參考鏈接:DjR28資訊網——每日最新資訊28at.com

[1]https://x.com/tuzhaopeng/status/1885179412163027406DjR28資訊網——每日最新資訊28at.com

[2]https://x.com/AlexGDimakis/status/1885447830120362099DjR28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:夢晨西風DjR28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-10450-0.html新研究揭示 DeepSeek o3 弱點:頻繁切換思路放棄正確方向,最短答案往往就是對的

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: DeepSeek 威脅下,OpenAI 稱考慮開源舊 AI 模型

下一篇: 小鵬汽車放大招!5年0息0首付購車,最高貼息5.7萬引關注

標簽:
  • 熱門焦點
  • 元宇宙終究沒火過兩年

    來源:傳播體操在ChatGPT快速破圈的同時,元宇宙的熱度卻一瀉千里。雖然互聯網大廠們都沒有否認元宇宙的長期想象力,但在行動上卻都紛紛表示了對元宇宙短期前景的悲觀。號稱改變
  • VR/AR迷失元宇宙“硝煙”

    不溫不火的VR/AR可穿戴設備因元宇宙崛起火了一陣,又隨著元宇宙回歸平靜。1月份,微軟在 Surface 設備、HoloLens 混合現實硬件和 Xbox 等部門裁員,其中負責混合現實硬件(MR)的Holo
  • 風口已至,多領域平臺融入社交元素!

    在眾多領域平臺中,社交元素都扮演著重要角色,如直播營銷帶貨、線上配對聽歌、游戲局內互動等。隨著元宇宙時代的來臨,社交產品不斷升級,社交元素推動流量變現,多平臺領域融入社交
  • 這場虛擬人爭奪戰,互聯網巨頭下場先贏一半?

    撰文/ 孟會緣 近兩年間,要論引得無數互聯網巨頭競折腰的一大熱門產業,莫過于元宇宙領域中的數字人了。 作為繼數字藏品之后,開發元宇宙的又一重點落地項目,互聯網
  • 冰墩墩還能火多久?

    作者:田巧云題圖源自北京2022年冬奧會官方微博如果要問2022年的開年明星是誰,冰墩墩當仁不讓。幾乎所有人都被那個抖雪的動作實力圈粉。在社交媒體的助推,以及日
  • 傳統互聯網與區塊鏈場景下數據權利法律分析

    數據權益的復雜性在于數據涉及多環節多主體、內容不同質且與不同場景緊密聯系、對軟硬件技術環節緊密相關等方面的復雜性。在傳統互聯網與區塊鏈模式下,數據處
  • 元宇宙風歸何處?

    元宇宙持續大火,在過去一段時間內,其屢次登上熱點,吸引了一波又一波投資者。近期,在“2022中國·金魚嘴元宇宙生態賦能大會”上,南京建鄴區金魚嘴基金街區宣布計劃
  • 扎克伯格演示了一種“造物主”式的元宇宙語音機器人工具

    前身為Facebook的Meta公司今天展示了一個人工智能系統的Demo,該系統使人們能夠通過語音命令生成或導入虛擬世界中的事物。該公司認為這個被稱為 "Builder Bot "
  • 韓國流行音樂巨頭SM與Binance達成NFT合作伙伴關系

    韓國流行音樂巨頭 SM Entertainment 與加密貨幣交易所 Binance(幣安)達成“Play2Create”NFT 合作伙伴關系。SM 娛樂一直在投資打造元宇宙該公司于 2020 年 10
Top