6 月 8 日消息,蘋果機(jī)器學(xué)習(xí)研究中心于當(dāng)?shù)貢r(shí)間 6 月 6 日發(fā)表了一篇研究論文,稱現(xiàn)有 AI 模型并不具備真正的思維能力或推理能力,而是依賴于模式匹配與記憶,尤其是對(duì)于復(fù)雜的任務(wù)而言。
蘋果研究人員對(duì)現(xiàn)有的前沿“大型推理模型”—— 如 OpenAI o3-mini、DeepSeek-R1、Anthropic 的 Claude 3.7 Sonnet Thinking 和谷歌 Gemini Thinking—— 進(jìn)行了系統(tǒng)評(píng)估。
研究發(fā)現(xiàn),盡管這些模型具備生成詳細(xì)“思考鏈”的能力,并在中等復(fù)雜度任務(wù)上表現(xiàn)出優(yōu)勢(shì),但其推理能力存在根本性局限:當(dāng)問(wèn)題復(fù)雜度超過(guò)特定臨界點(diǎn)時(shí),模型性能會(huì)完全崩潰至“零準(zhǔn)確率”。
此外,在模型推理過(guò)程中,即使仍有充足的推理算力,它們用于“思考”的 token 數(shù)量反而隨難度上升而減少,這種現(xiàn)象意味著現(xiàn)有推理方法存在根本局限性。
這篇《思考的幻象:通過(guò)問(wèn)題復(fù)雜性的視角理解推理模型的優(yōu)勢(shì)與局限》由 Parshin Shojaee 等人撰寫。研究表明,當(dāng)前業(yè)界對(duì)這些模型的評(píng)估主要集中在數(shù)學(xué)和編程基準(zhǔn)測(cè)試上,關(guān)注最終答案的準(zhǔn)確性,但這往往忽略了數(shù)據(jù)污染問(wèn)題,也無(wú)法提供有關(guān)內(nèi)部推理軌跡結(jié)構(gòu)和質(zhì)量的洞見(jiàn)。
研究人員采用了一系列可控的解謎環(huán)境,允許精確操縱組成復(fù)雜性,同時(shí)保持邏輯結(jié)構(gòu)的一致性。這使得不僅可以分析最終答案,還可以探究?jī)?nèi)部推理軌跡,從而更深入地了解這些模型是如何“思考”的。
研究團(tuán)隊(duì)提出,模型表現(xiàn)可分為三個(gè)階段:
低復(fù)雜度任務(wù):傳統(tǒng)大模型(IT酷哥注:如 Claude-3.7 無(wú)思維版本)表現(xiàn)更佳;
中等復(fù)雜度任務(wù):具備思維機(jī)制的大型推理模型(LRMs)更占優(yōu)勢(shì);
高復(fù)雜度任務(wù):兩類模型均陷入完全失效狀態(tài)。
特別是,研究發(fā)現(xiàn) LRMs 在執(zhí)行精確計(jì)算方面存在局限性,無(wú)法使用顯式算法且跨不同謎題進(jìn)行推理時(shí)表現(xiàn)出不一致性。
總的來(lái)說(shuō),這項(xiàng)研究不僅質(zhì)疑了當(dāng)前基于已建立數(shù)學(xué)基準(zhǔn)的 LRMs 評(píng)估范式,還強(qiáng)調(diào)了需要更加細(xì)致的實(shí)驗(yàn)設(shè)置來(lái)探索這些問(wèn)題。通過(guò)使用可控制的謎題環(huán)境,本研究提供了對(duì)語(yǔ)言推理模型能力和局限性的深刻見(jiàn)解,并為未來(lái)的研究指明了方向。
研究人員表示,“這些發(fā)現(xiàn)突出了現(xiàn)有 LRMs 的優(yōu)點(diǎn)和局限性,引發(fā)了關(guān)于這些系統(tǒng)推理本質(zhì)的問(wèn)題,這對(duì)它們的設(shè)計(jì)和部署具有重要意義。”
參考資料:
《The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity - Apple Machine Learning Research》
本文鏈接:http://www.tebozhan.com/showinfo-26-157707-0.html蘋果最新研究:現(xiàn)有 AI 大模型“更像是在記憶,而非真正的推理”
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 《侏羅紀(jì)世界:重生》發(fā)布正片片段:中國(guó)內(nèi)地定檔 7 月 2 日,斯嘉麗?約翰遜主演
下一篇: 我國(guó)渤海最大油氣平臺(tái)完成海上浮托安裝,預(yù)計(jì)年內(nèi)投入生產(chǎn)