當前位置：首頁 > 元宇宙 > AI

蘋果研究人員質疑 AI 的推理能力：簡單數學問題稍作改動就會答錯

來源：責編：時間：2024-10-14 16:21:52 75觀看

導讀 10 月 12 日消息，近年來，人工智能（AI）在各個領域取得了顯著的進展，其中大型語言模型（LLM）能夠生成人類水平的文本，甚至在某些任務上超越人類的表現。然而，研究人員對 LLM 的推理能力提出了質疑，他們發現這些模型在解決

10 月 12 日消息，近年來，人工智能（AI）在各個領域取得了顯著的進展，其中大型語言模型（LLM）能夠生成人類水平的文本，甚至在某些任務上超越人類的表現。然而，研究人員對 LLM 的推理能力提出了質疑，他們發現這些模型在解決簡單的數學問題時，只要稍加改動，就會犯錯誤，這表明它們可能并不具備真正的邏輯推理能力。

圖源 Pexels

周四，蘋果公司的一組研究人員發布了一篇名為《理解大型語言模型中數學推理的局限性》的論文，揭示 LLM 在解決數學問題時容易受到干擾。注意到，研究人員通過對數學問題的微小改動，例如添加無關的信息，來測試 LLM 的推理能力。結果發現，這些模型在面對這樣的變化時，其表現急劇下降。

例如，當研究人員給出一個簡單的數學問題：“奧利弗星期五摘了 44 個奇異果，星期六摘了 58 個奇異果。星期日，他摘的奇異果是星期五的兩倍。奧利弗一共摘了多少個奇異果？”時，LLM 能夠正確地計算出答案。然而，當研究人員添加一個無關的細節，“星期日，他摘的奇異果是星期五的兩倍，其中 5 個比平均小”時，LLM 的回答卻出現了錯誤。例如，GPT-o1-mini 的回答是：“... 星期日，其中 5 個奇異果比平均小。我們需要從星期日的總數中減去它們：88（星期日的奇異果） - 5（較小的奇異果） = 83 個奇異果。”

上面只是一個簡單的例子，研究人員修改了數百個問題，幾乎所有問題都導致模型的回答成功率大幅下降。

研究人員認為，這種現象表明 LLM 并沒有真正理解數學問題，而是僅僅根據訓練數據中的模式進行預測。但一旦需要真正的“推理”，例如是否計算小的奇異果，它們就會產生奇怪的、不合常理的結果。

這一發現對 AI 的發展具有重要的啟示。雖然 LLM 在許多領域表現出色，但其推理能力仍然存在局限性。未來，研究人員需要進一步探索如何提高 LLM 的推理能力，使其能夠更好地理解和解決復雜的問題。

本文鏈接：http://www.tebozhan.com/showinfo-45-9084-0.html蘋果研究人員質疑 AI 的推理能力：簡單數學問題稍作改動就會答錯

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：字節跳動與清華大學 AIR 成立聯合研究中心，推動大模型產學研合作

下一篇：李開復：零一萬物沒有放棄預訓練模型，新模型也即將推出

標簽：

熱門焦點

刷完一場元宇宙世界杯音樂盛典，我爽了

作者|劉小土編輯|李春暉你有多久沒完整追過一場音樂盛典了？三刷都不嫌多的那種。按照慣例，每逢年底，直播、長短視頻、音樂平臺便會搶著端上來幾場音樂盛典。擱以
比特幣的價格越高，使用價值越大

隔夜比特幣還是在精準地橫盤在42k上方。空頭昨日試圖發起一波小的攻勢，但是晚上就被多頭掰了回來。以太坊的鏈上gas price降到了60 gwei以下，彰顯著市場活躍度的
2022年的Web3：定義概念并開創新范式

Web3 是關于加密和區塊鏈應該如何使用的概念，因為它是加密圈的一個離散子領域。社區機會將呈指數級增長，擴大這些子行業的人口統計范圍。追求 Web3 項目的組織仍
虛擬數字人：元宇宙的主角破圈而來

虛擬數字人市場逐步進入成熟期，商業化進程加速。1982年世界第一位虛擬歌姬林明美誕生，虛擬數字人行業經歷了萌芽、探索、初級和成長四個階段。隨技術逐年突破，制
Meta 在衰落嗎？

扎克伯格已經很久沒有出現在公眾視野里了，近日，他罕見的接受播客采訪，在兩個小時的時間里暢談了Meta、Facebook、Instagram、元宇宙的未來。正方觀點：是的阿倫·達
美國單曲排行榜Billboard和World of Women合作推出NFT雜志封面

今天，Billboard宣布與流行的NFT頭像集World of Women（WoW）建立新的伙伴關系，向NFT生態系統又邁進了一步。在這次合作中，WoW的創建者Yam Karkai將幫助這個音樂行業巨
這場虛擬發布會，當面“造假”！

英偉達去年4月份那場發布會，你曾看出什么不對勁的地方嗎？你品，你細品——在計算機圖形學頂會SIGGRAPH 2021上，英偉達通過一部紀錄片自曝：那場發布會內藏玄機~你看到
元宇宙不完全是想出來的，而是實打實做出來的

沈陽強調，元宇宙不完全是想出來的，而是靠實打實做出來的；互聯網向三維化升級是已經明確的大方向，這意味著大量的資金和技術會持續涌入。跨入2022年，元宇宙并沒有“
Ceramic：為Web3.0社交應用打造的中間件

大家關注老雅痞公眾號這么久，對Web3的概念不陌生吧？讓我們做一個簡短的回顧，Web3主要被描述為去中心化的網絡，旨在實現無服務器、去中心化的互聯網，即用戶掌握自己

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

蘋果研究人員質疑 AI 的推理能力：簡單數學問題稍作改動就會答錯

刷完一場元宇宙世界杯音樂盛典，我爽了

比特幣的價格越高，使用價值越大

2022年的Web3：定義概念并開創新范式

虛擬數字人：元宇宙的主角破圈而來

Meta 在衰落嗎？

美國單曲排行榜Billboard和World of Women合作推出NFT雜志封面

這場虛擬發布會，當面“造假”！

元宇宙不完全是想出來的，而是實打實做出來的

Ceramic：為Web3.0社交應用打造的中間件

最新推薦

藍標虧錢、Meta裁員：天下秀還值得砸錢元宇宙嗎？

過去女性在互聯網領域是半邊天，在Web3，將會是整片天！

融資千萬美元的元宇宙平臺UGC到底是什么？

大廠打造元宇宙平臺的業務重心是什么？

3月份值得關注的5個NFT項目

元宇宙收割了誰

猜你喜歡

熱門推薦

相關資訊