AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 科技  > 軟件

蘋果最新研究:現有 AI 大模型“更像是在記憶,而非真正的推理”

來源: 責編: 時間:2025-06-09 09:36:28 86觀看
導讀 6 月 8 日消息,蘋果機器學習研究中心于當地時間 6 月 6 日發表了一篇研究論文,稱現有 AI 模型并不具備真正的思維能力或推理能力,而是依賴于模式匹配與記憶,尤其是對于復雜的任務而言。蘋果研究人員對現有的前沿

6 月 8 日消息,蘋果機器學習研究中心于當地時間 6 月 6 日發表了一篇研究論文,稱現有 AI 模型并不具備真正的思維能力或推理能力,而是依賴于模式匹配與記憶,尤其是對于復雜的任務而言。VBz28資訊網——每日最新資訊28at.com

VBz28資訊網——每日最新資訊28at.com

蘋果研究人員對現有的前沿“大型推理模型”—— 如 OpenAI o3-mini、DeepSeek-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking—— 進行了系統評估。VBz28資訊網——每日最新資訊28at.com

研究發現,盡管這些模型具備生成詳細“思考鏈”的能力,并在中等復雜度任務上表現出優勢,但其推理能力存在根本性局限:當問題復雜度超過特定臨界點時,模型性能會完全崩潰至“零準確率”。VBz28資訊網——每日最新資訊28at.com

此外,在模型推理過程中,即使仍有充足的推理算力,它們用于“思考”的 token 數量反而隨難度上升而減少,這種現象意味著現有推理方法存在根本局限性。VBz28資訊網——每日最新資訊28at.com

VBz28資訊網——每日最新資訊28at.com

這篇《思考的幻象:通過問題復雜性的視角理解推理模型的優勢與局限》由 Parshin Shojaee 等人撰寫。研究表明,當前業界對這些模型的評估主要集中在數學和編程基準測試上,關注最終答案的準確性,但這往往忽略了數據污染問題,也無法提供有關內部推理軌跡結構和質量的洞見。VBz28資訊網——每日最新資訊28at.com

研究人員采用了一系列可控的解謎環境,允許精確操縱組成復雜性,同時保持邏輯結構的一致性。這使得不僅可以分析最終答案,還可以探究內部推理軌跡,從而更深入地了解這些模型是如何“思考”的。VBz28資訊網——每日最新資訊28at.com

研究團隊提出,模型表現可分為三個階段:VBz28資訊網——每日最新資訊28at.com

低復雜度任務:傳統大模型(IT酷哥注:如 Claude-3.7 無思維版本)表現更佳;VBz28資訊網——每日最新資訊28at.com

中等復雜度任務:具備思維機制的大型推理模型(LRMs)更占優勢;VBz28資訊網——每日最新資訊28at.com

高復雜度任務:兩類模型均陷入完全失效狀態。VBz28資訊網——每日最新資訊28at.com

特別是,研究發現 LRMs 在執行精確計算方面存在局限性,無法使用顯式算法且跨不同謎題進行推理時表現出不一致性。VBz28資訊網——每日最新資訊28at.com

總的來說,這項研究不僅質疑了當前基于已建立數學基準的 LRMs 評估范式,還強調了需要更加細致的實驗設置來探索這些問題。通過使用可控制的謎題環境,本研究提供了對語言推理模型能力和局限性的深刻見解,并為未來的研究指明了方向。VBz28資訊網——每日最新資訊28at.com

研究人員表示,“這些發現突出了現有 LRMs 的優點和局限性,引發了關于這些系統推理本質的問題,這對它們的設計和部署具有重要意義。”VBz28資訊網——每日最新資訊28at.com

參考資料:VBz28資訊網——每日最新資訊28at.com

《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity - Apple Machine Learning Research》VBz28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-26-157707-0.html蘋果最新研究:現有 AI 大模型“更像是在記憶,而非真正的推理”

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 《侏羅紀世界:重生》發布正片片段:中國內地定檔 7 月 2 日,斯嘉麗?約翰遜主演

下一篇: 我國渤海最大油氣平臺完成海上浮托安裝,預計年內投入生產

標簽:
  • 熱門焦點
Top