當(dāng)前位置：首頁(yè) > 科技 > 軟件

蘋果最新研究：現(xiàn)有 AI 大模型“更像是在記憶，而非真正的推理”

來(lái)源：責(zé)編：時(shí)間：2025-06-09 09:36:28 143觀看

導(dǎo)讀 6 月 8 日消息，蘋果機(jī)器學(xué)習(xí)研究中心于當(dāng)?shù)貢r(shí)間 6 月 6 日發(fā)表了一篇研究論文，稱現(xiàn)有 AI 模型并不具備真正的思維能力或推理能力，而是依賴于模式匹配與記憶，尤其是對(duì)于復(fù)雜的任務(wù)而言。蘋果研究人員對(duì)現(xiàn)有的前沿

6 月 8 日消息，蘋果機(jī)器學(xué)習(xí)研究中心于當(dāng)?shù)貢r(shí)間 6 月 6 日發(fā)表了一篇研究論文，稱現(xiàn)有 AI 模型并不具備真正的思維能力或推理能力，而是依賴于模式匹配與記憶，尤其是對(duì)于復(fù)雜的任務(wù)而言。

蘋果研究人員對(duì)現(xiàn)有的前沿“大型推理模型”—— 如 OpenAI o3-mini、DeepSeek-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking—— 進(jìn)行了系統(tǒng)評(píng)估。

研究發(fā)現(xiàn)，盡管這些模型具備生成詳細(xì)“思考鏈”的能力，并在中等復(fù)雜度任務(wù)上表現(xiàn)出優(yōu)勢(shì)，但其推理能力存在根本性局限：當(dāng)問(wèn)題復(fù)雜度超過(guò)特定臨界點(diǎn)時(shí)，模型性能會(huì)完全崩潰至“零準(zhǔn)確率”。

此外，在模型推理過(guò)程中，即使仍有充足的推理算力，它們用于“思考”的 token 數(shù)量反而隨難度上升而減少，這種現(xiàn)象意味著現(xiàn)有推理方法存在根本局限性。

這篇《思考的幻象：通過(guò)問(wèn)題復(fù)雜性的視角理解推理模型的優(yōu)勢(shì)與局限》由 Parshin Shojaee 等人撰寫。研究表明，當(dāng)前業(yè)界對(duì)這些模型的評(píng)估主要集中在數(shù)學(xué)和編程基準(zhǔn)測(cè)試上，關(guān)注最終答案的準(zhǔn)確性，但這往往忽略了數(shù)據(jù)污染問(wèn)題，也無(wú)法提供有關(guān)內(nèi)部推理軌跡結(jié)構(gòu)和質(zhì)量的洞見(jiàn)。

研究人員采用了一系列可控的解謎環(huán)境，允許精確操縱組成復(fù)雜性，同時(shí)保持邏輯結(jié)構(gòu)的一致性。這使得不僅可以分析最終答案，還可以探究?jī)?nèi)部推理軌跡，從而更深入地了解這些模型是如何“思考”的。

研究團(tuán)隊(duì)提出，模型表現(xiàn)可分為三個(gè)階段：

低復(fù)雜度任務(wù)：傳統(tǒng)大模型（IT酷哥注：如 Claude-3.7 無(wú)思維版本）表現(xiàn)更佳；

中等復(fù)雜度任務(wù)：具備思維機(jī)制的大型推理模型（LRMs）更占優(yōu)勢(shì)；

高復(fù)雜度任務(wù)：兩類模型均陷入完全失效狀態(tài)。

特別是，研究發(fā)現(xiàn) LRMs 在執(zhí)行精確計(jì)算方面存在局限性，無(wú)法使用顯式算法且跨不同謎題進(jìn)行推理時(shí)表現(xiàn)出不一致性。

總的來(lái)說(shuō)，這項(xiàng)研究不僅質(zhì)疑了當(dāng)前基于已建立數(shù)學(xué)基準(zhǔn)的 LRMs 評(píng)估范式，還強(qiáng)調(diào)了需要更加細(xì)致的實(shí)驗(yàn)設(shè)置來(lái)探索這些問(wèn)題。通過(guò)使用可控制的謎題環(huán)境，本研究提供了對(duì)語(yǔ)言推理模型能力和局限性的深刻見(jiàn)解，并為未來(lái)的研究指明了方向。

研究人員表示，“這些發(fā)現(xiàn)突出了現(xiàn)有 LRMs 的優(yōu)點(diǎn)和局限性，引發(fā)了關(guān)于這些系統(tǒng)推理本質(zhì)的問(wèn)題，這對(duì)它們的設(shè)計(jì)和部署具有重要意義。”

參考資料：

《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity - Apple Machine Learning Research》

本文鏈接：http://www.tebozhan.com/showinfo-26-157707-0.html蘋果最新研究：現(xiàn)有 AI 大模型“更像是在記憶，而非真正的推理”

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：《侏羅紀(jì)世界：重生》發(fā)布正片片段：中國(guó)內(nèi)地定檔 7 月 2 日，斯嘉麗?約翰遜主演

下一篇：我國(guó)渤海最大油氣平臺(tái)完成海上浮托安裝，預(yù)計(jì)年內(nèi)投入生產(chǎn)

標(biāo)簽：

熱門焦點(diǎn)

MIX Fold3包裝盒泄露新機(jī)本月登場(chǎng)

小米的全新折疊屏旗艦MIX Fold3將于本月發(fā)布，近日該機(jī)的真機(jī)包裝盒在網(wǎng)上泄露。從圖上來(lái)看，新的MIX Fold3包裝盒在外觀設(shè)計(jì)方面延續(xù)了之前的方案，變化不大，這也是目前小米旗艦
對(duì)標(biāo)蘋果的靈動(dòng)島華為帶來(lái)實(shí)況窗功能

繼蘋果的靈動(dòng)島之后，華為也在今天正式推出了“實(shí)況窗”功能。據(jù)今天鴻蒙OS 4.0的現(xiàn)場(chǎng)演示顯示，華為的實(shí)況窗可以更高效的展現(xiàn)出實(shí)時(shí)通知，比如鎖屏上就能看到外賣、打車、銀行
6月安卓手機(jī)性能榜：vivo/iQOO霸占旗艦排行榜前三

2023年上半年已經(jīng)正式過(guò)去了，我們也迎來(lái)了安兔兔V10版本，在新的驍龍8Gen3和天璣9300發(fā)布之前，性能榜的榜單大體會(huì)以驍龍8Gen2和天璣9200+為主，至于那顆3.36GHz的驍龍8Gen2領(lǐng)先
微軟邀請(qǐng) Microsoft 365 商業(yè)用戶，測(cè)試視頻編輯器 Clipchamp

8 月 1 日消息，微軟近日宣布即將面向 Microsoft 365 商業(yè)用戶，開(kāi)放 Clipchamp 應(yīng)用，邀請(qǐng)用戶通過(guò)該應(yīng)用來(lái)編輯視頻。微軟于 2021 年收購(gòu) Clipchamp，隨后開(kāi)始逐步整合到 Microsof
為什么你不應(yīng)該使用Div作為可點(diǎn)擊元素

按鈕是為任何網(wǎng)絡(luò)應(yīng)用程序提供交互性的最常見(jiàn)方式。但我們經(jīng)常傾向于使用其他HTML元素，如 div span 等作為 clickable 元素。但通過(guò)這樣做，我們錯(cuò)過(guò)了許多內(nèi)置瀏覽器的功能。
拼多多APP上線本地生活入口，群雄逐鹿萬(wàn)億市場(chǎng)

Tech星球（微信ID：tech618）文 | 陳橋輝 Tech星球獨(dú)家獲悉，拼多多在其APP內(nèi)上線了“本地生活”入口，位置較深，位于首頁(yè)的“充值中心”內(nèi)，目前主要售賣美食相關(guān)的
ESG的面子與里子

來(lái)源 | 光子星球撰文 | 吳坤諺編輯 | 吳先之三伏大幕拉起，各地高溫預(yù)警不絕，但處于厄爾尼諾大“烤”之下的除了眾生，還有各大企業(yè)發(fā)布的ESG報(bào)告。ESG是“環(huán)境保
馮提莫簽約抖音公會(huì) 前“斗魚一姐”消失在直播間

來(lái)源：直播觀察提起“馮提莫”這個(gè)名字，很多網(wǎng)友或許聽(tīng)過(guò)，但應(yīng)該不記得她是哪位主播了。其實(shí)，作為曾經(jīng)的“斗魚一姐”，馮提莫在游戲直播的年代影響力不輸于現(xiàn)
蘋果MacBook Pro 2021測(cè)試：仍不支持平滑滾動(dòng)

據(jù)10月30日9to5 Mac 消息報(bào)道，蘋果新的 14 英寸和 16 英寸 MacBook Pro 2021 上市后獲得了不錯(cuò)的評(píng)價(jià)，亮點(diǎn)包括行業(yè)領(lǐng)先的性能，令人印象深刻的電池續(xù)航，精美豐

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

蘋果最新研究：現(xiàn)有 AI 大模型“更像是在記憶，而非真正的推理”

MIX Fold3包裝盒泄露新機(jī)本月登場(chǎng)

對(duì)標(biāo)蘋果的靈動(dòng)島華為帶來(lái)實(shí)況窗功能

6月安卓手機(jī)性能榜：vivo/iQOO霸占旗艦排行榜前三

微軟邀請(qǐng) Microsoft 365 商業(yè)用戶，測(cè)試視頻編輯器 Clipchamp

為什么你不應(yīng)該使用Div作為可點(diǎn)擊元素

拼多多APP上線本地生活入口，群雄逐鹿萬(wàn)億市場(chǎng)

ESG的面子與里子

馮提莫簽約抖音公會(huì) 前“斗魚一姐”消失在直播間

蘋果MacBook Pro 2021測(cè)試：仍不支持平滑滾動(dòng)

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊