當前位置：首頁 > 元宇宙 > AI

大模型測試題爆火，GPT-4 和 Claude3 都跪了，LeCun 轉發：新 Benchmark

來源：責編：時間：2024-06-27 07:50:46 176觀看

導讀一項新的“大模型 Benchmark”在推特上爆火，LeCun 也點贊轉發了！而且無論是 GPT-4 還是 Claude 3，面對它都如同被奪了魂，無法給出正確答案。難倒一眾大模型的，是邏輯學當中經典的“動物過河”問題，有網友發現，大模型

一項新的“大模型 Benchmark”在推特上爆火，LeCun 也點贊轉發了！

而且無論是 GPT-4 還是 Claude 3，面對它都如同被奪了魂，無法給出正確答案。

難倒一眾大模型的，是邏輯學當中經典的“動物過河”問題，有網友發現，大模型對此類問題表現得很不擅長。

甚至有人觀察到，幾個不同的模型都給出了一致的（錯誤）答案，讓人懷疑他們是不是用了相同的訓練數據。

針對這項測試，網友還定義了一個新的名詞叫“劣效比率”（crapness ratio），讓 LeCun 打趣說到，一項新的“Benchmark”誕生了。

“模見模愁”的動物過河

首先來看一下什么是“動物過河”問題，這是邏輯學當中的一道經典題目。

問題的原型是這樣的：

農夫需要把狼、羊和白菜都帶過河，但每次只能帶一樣物品，而且狼和羊不能單獨相處，羊和白菜也不能單獨相處，問農夫該如何過河。

在這個問題當中，農夫需要七次（往返視為兩次）過河 —— 先把羊運過去，然后空船返回，再把狼運過河，帶回羊，然后運送白菜，再空船返回，最后運送羊。

而劣效比率的定義，就是模型給出的運送次數與實際最少所需次數的比值。

當然在測試中，網友使用的問題經過了改編，結果發現，當題目變成一共有兩只雞，一次可以運兩只的時候，GPT-4 依然在一本正經地胡亂分析，最后信誓旦旦地回答是五次。

所以在這種情境下，“劣效比率”就是 5。

Claude 這邊的情況要更離譜一些，明明只有一只羊要送，它卻硬生生說要運三次。

還有網友發現了華點，把題面改成從東岸運到東岸，也就是根本不需要運送，模型不以為然，依舊我行我素地籌劃著運送方案。

這下只要模型沒識破陷阱，隨便說一個數“劣效比率”都會直接變成無窮大。

哪怕問得更直白一些，直接說不需要過河，模型依然會直接開算。

所以，這個“劣效比率”更多像是一種玩笑，不太能比較出各模型的能力，或者說離譜程度。

有網友分析，這種現象可能并不意味著大模型推理能力的缺乏，實際上它揭示了訓練數據對大模型輸出的影響。

但另一方面，無論問題是否出自推理本身，至少說明了當前的大模型還不是優質的推理工具。

那么，這究竟是個別現象，還是模型的通病？我們選擇了更多的模型進行了測試。

12 款模型全軍覆沒

針對這個“Benchmark”，也如法炮制，測了測國產大模型的表現，參賽的選手有文心一言、通義千問等 12 款大模型。

測試的過程和網友展示的方法相似，Prompt 中只描述問題，不添加額外的提示詞。

對每個大模型，我們都準備了下面這三道題目：

首先進行一下說明：

1、農夫不被計入運送物品的數量限制

2、題目中“獨處”的標準是，只要有人或其他物品在場，就不屬于獨處

3、往返過程視為兩次過河

以上幾點在 Prompt 中均有指出。

問題一（正常提問）：

一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河，每次只能帶兩件，且狼和羊 / 狐貍和雞 / 雞和米不能單獨相處，每次運送時農夫必須在船上，最少需要過河幾次？

（答案：五次，只要第一次運到對岸的兩個物品可以獨處即可。）

問題二（一步到位）：

一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河，每次只能帶五件，且狼和羊 / 狐貍和雞 / 雞和米不能單獨相處，每次運送時農夫必須在船上，最少需要過河幾次？

問題三（陷阱問題）：

一個農夫不需要將狼、羊、狐貍、雞和米五種物品運送過河，每次只能帶兩件，且狼和羊 / 狐貍和雞 / 雞和米不能單獨相處，每次運送時農夫必須在船上，最少需要過河幾次？

結果可以說是全軍覆沒，首先用一張表格來整體看下各大模型的表現。

第一個問題，各有各的錯法，相同的錯誤類型，這里每種只列舉一個例子。

比如文心一言，前面說得沒什么問題，但最后把狐貍帶回原來的岸邊后忘了再帶過去，最終沒有完成任務：

還有訊飛星火這種運著運著，某樣東西自動就跑到了對岸的情況：

以上的兩種錯誤比較典型，當然，還有最有意思的錯誤來自躍問 ——

因為狼和羊不能“獨處”，所以它們需要在一起。

這波屬實是把人給整不會了，不過整場測試中，除了這個把“獨處”理解錯的情況之外，倒是都沒有出現讓不能獨處的動物單獨在一起的現象。

當然也有表現好一些的，比如騰訊元寶的方案已經接近可行，只是最后兩步純屬多余，而且實際上此時已經無物可運。

表現最好的是通義千問，給出的方案雖然麻煩，但是找不出什么錯誤。

值得注意的是，很多模型給出的方案都會把羊運送過去，然后運一只雞再把羊運回來，不知道為什么不直接運雞。

另外值得一提的是，我們在 Prompt 中雖未提及，但基本上接受測試的模型都不約而同地運用到了思維鏈方式，一方面說明了模型確實會使用推理技巧，但另一方面也說明思維鏈的作用是有限的。

而至于后面兩個問題，錯法就比較統一了 —— 根本沒關注到數量限制的變化，更沒看到“不需要”里的“不”，和前面 GPT 的錯法也是如出一轍。

也就是說，通過這些測試，我們確實無法得知模型有沒有相應的推理能力，因為模型根本就沒仔細讀題。

或許這也是在第一題中，多數模型，哪怕給出了可行的方案，仍然一次只運送一件物品而不是兩件的原因。

所以，前面網友針對訓練數據和輸出關系的分析，可能不無道理。

參考鏈接：

[1]https://x.com/wtgowers/status/1804565549789135256

[2]https://x.com/ylecun/status/1804641976249417882

本文來自微信公眾號：量子位（ID：QbitAI），作者：克雷西

本文鏈接：http://www.tebozhan.com/showinfo-45-4790-0.html大模型測試題爆火，GPT-4 和 Claude3 都跪了，LeCun 轉發：新 Benchmark

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： “清華系”面壁智能與華為云合作，推進大模型端云協同解決方案

下一篇：美國多家汽車經銷商將 AI 用于車輛初步檢查：一分鐘內可生成全面報告

標簽：

熱門焦點

三院士三教授熱聊元宇宙&——AIGC，學術界怎么看？

來源：清元宇宙在近日舉辦的中國江寧2023元宇宙產業·人才高峰論壇暨AIGC發展大會上，中國工程院院士譚建榮、劉韻潔、鄭緯民出席并發表了主旨演講。除了三大院士，還有清華
2022年最具關注的9個頭像NFT項目

什么是 PFP NFT 項目？PFP NFT （個人資料圖片NFT）是一組獨特的數字收藏品，人們用來在互聯網平臺上代表自己。這些數字藝術作品通常是一系列可作為頭像的角色，在 Twit
多地釋放積極信號，元宇宙正成為地方爭先競逐的主戰場？

2月21日，2022中國·金魚嘴元宇宙生態賦能大會在南京建鄴區金魚嘴基金街區舉辦，南京建鄴區金魚嘴基金街區宣布計劃出資1億元，支持元宇宙行業發展。同時，會上發布了
Meta公布AI概念“Builder Bot”；銀保監發布元宇宙相關風險提示

概述自從Meta在2月初公布財報后，其負責元宇宙的核心部門Reality Labs表現不佳，凈虧損超100億美元，隨后股價斷崖式下跌。如今，Meta開始繼續發力元宇宙，想要挽回頹勢，
「國產良心」NFT嘲諷了誰？

2月23日，一個名為「國產良心」的NFT項目被許多活躍的加密用戶注意到。該項目的官網風格尤為「不正經」，它絲毫沒有避諱自己的小作坊出身，還將「中國人不騙中國人
從英式拍到荷蘭拍，看傳統金融拍賣玩法如何玩轉NFT市場交易

作者：魯拍賣是一種從古至今的商業活動。從古代的典當到現代的拍賣市場、我們熟知的拍賣行，以及知名街頭藝術家Bansky名畫拍賣成功后，竟自毀粉碎，現價值又翻倍的拍
頭頂光環無數卻估值極低，以太坊這位&——quot;最強殺手&——quot;有望涅槃重生？

作者：五火球教主提起Dfinity（ICP），你的第一感覺可能與我一樣，這是一個讓人十分糾結的項目。之所以糾結，一方面他的團隊陣容強大，各種來自前英特爾、IBM、coinbase、fa
過去女性在互聯網領域是半邊天，在Web3，將會是整片天！

Web 2.0 是由幾家“直男”大公司塑造的。接下來的Web3世界中，如果女性在創造性方面發揮更大的作用，可能會讓這個新時代更受歡迎、更安全和公平。當我們談論 Web3
用戶可以把自己的醫療健康數據做成NFT出售給醫藥公司掙錢

你可能聽說過不可偽造的代幣，或NFTs。NFTs是數字代幣，代表完全獨特的項目的所有權；存儲在區塊鏈中并可追蹤，它們不能被修改、替換或復制。作為NFT鑄造的資產在數字

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

大模型測試題爆火，GPT-4 和 Claude3 都跪了，LeCun 轉發：新 Benchmark

三院士三教授熱聊元宇宙&——AIGC，學術界怎么看？

2022年最具關注的9個頭像NFT項目

多地釋放積極信號，元宇宙正成為地方爭先競逐的主戰場？

Meta公布AI概念“Builder Bot”；銀保監發布元宇宙相關風險提示

「國產良心」NFT嘲諷了誰？

從英式拍到荷蘭拍，看傳統金融拍賣玩法如何玩轉NFT市場交易

頭頂光環無數卻估值極低，以太坊這位&——quot;最強殺手&——quot;有望涅槃重生？

過去女性在互聯網領域是半邊天，在Web3，將會是整片天！

用戶可以把自己的醫療健康數據做成NFT出售給醫藥公司掙錢

最新推薦

B端難做：留給魔琺科技的時間不多了

茅臺的元宇宙App火了，也被罵慘了

元宇宙將會如何塑造未來的工作方式？

【量子位】虛擬數字人深度產業報告 | 元宇宙Meta洞見

NFT Insider #47：YGG發布2021Q4社區報告，GameFi領域1月份獲超10億美元融資

電影工業巨頭好萊塢計劃進軍元宇宙，將會對行業帶來什么影響？

猜你喜歡

熱門推薦

相關資訊