AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

大模型測試題爆火,GPT-4 和 Claude3 都跪了,LeCun 轉發:新 Benchmark

來源: 責編: 時間:2024-06-27 07:50:46 119觀看
導讀 一項新的“大模型 Benchmark”在推特上爆火,LeCun 也點贊轉發了!而且無論是 GPT-4 還是 Claude 3,面對它都如同被奪了魂,無法給出正確答案。難倒一眾大模型的,是邏輯學當中經典的“動物過河”問題,有網友發現,大模型

一項新的“大模型 Benchmark”在推特上爆火,LeCun 也點贊轉發了!6nG28資訊網——每日最新資訊28at.com

而且無論是 GPT-4 還是 Claude 3,面對它都如同被奪了魂,無法給出正確答案。6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

難倒一眾大模型的,是邏輯學當中經典的“動物過河”問題,有網友發現,大模型對此類問題表現得很不擅長。6nG28資訊網——每日最新資訊28at.com

甚至有人觀察到,幾個不同的模型都給出了一致的(錯誤)答案,讓人懷疑他們是不是用了相同的訓練數據。6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

針對這項測試,網友還定義了一個新的名詞叫“劣效比率”(crapness ratio),讓 LeCun 打趣說到,一項新的“Benchmark”誕生了。6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

“模見模愁”的動物過河

首先來看一下什么是“動物過河”問題,這是邏輯學當中的一道經典題目。6nG28資訊網——每日最新資訊28at.com

問題的原型是這樣的:6nG28資訊網——每日最新資訊28at.com

農夫需要把狼、羊和白菜都帶過河,但每次只能帶一樣物品,而且狼和羊不能單獨相處,羊和白菜也不能單獨相處,問農夫該如何過河。6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

在這個問題當中,農夫需要七次(往返視為兩次)過河 —— 先把羊運過去,然后空船返回,再把狼運過河,帶回羊,然后運送白菜,再空船返回,最后運送羊。6nG28資訊網——每日最新資訊28at.com

而劣效比率的定義,就是模型給出的運送次數與實際最少所需次數的比值。6nG28資訊網——每日最新資訊28at.com

當然在測試中,網友使用的問題經過了改編,結果發現,當題目變成一共有兩只雞,一次可以運兩只的時候,GPT-4 依然在一本正經地胡亂分析,最后信誓旦旦地回答是五次。6nG28資訊網——每日最新資訊28at.com

所以在這種情境下,“劣效比率”就是 5。6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

Claude 這邊的情況要更離譜一些,明明只有一只羊要送,它卻硬生生說要運三次。6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

還有網友發現了華點,把題面改成從東岸運到東岸,也就是根本不需要運送,模型不以為然,依舊我行我素地籌劃著運送方案。6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

這下只要模型沒識破陷阱,隨便說一個數“劣效比率”都會直接變成無窮大。6nG28資訊網——每日最新資訊28at.com

哪怕問得更直白一些,直接說不需要過河,模型依然會直接開算。6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

所以,這個“劣效比率”更多像是一種玩笑,不太能比較出各模型的能力,或者說離譜程度。6nG28資訊網——每日最新資訊28at.com

有網友分析,這種現象可能并不意味著大模型推理能力的缺乏,實際上它揭示了訓練數據對大模型輸出的影響。6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

但另一方面,無論問題是否出自推理本身,至少說明了當前的大模型還不是優質的推理工具。6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

那么,這究竟是個別現象,還是模型的通病?我們選擇了更多的模型進行了測試。6nG28資訊網——每日最新資訊28at.com

12 款模型全軍覆沒

針對這個“Benchmark”,也如法炮制,測了測國產大模型的表現,參賽的選手有文心一言、通義千問等 12 款大模型。6nG28資訊網——每日最新資訊28at.com

測試的過程和網友展示的方法相似,Prompt 中只描述問題,不添加額外的提示詞。6nG28資訊網——每日最新資訊28at.com

對每個大模型,我們都準備了下面這三道題目:6nG28資訊網——每日最新資訊28at.com

首先進行一下說明:6nG28資訊網——每日最新資訊28at.com

1、農夫不被計入運送物品的數量限制6nG28資訊網——每日最新資訊28at.com

2、題目中“獨處”的標準是,只要有人或其他物品在場,就不屬于獨處6nG28資訊網——每日最新資訊28at.com

3、往返過程視為兩次過河6nG28資訊網——每日最新資訊28at.com

以上幾點在 Prompt 中均有指出。6nG28資訊網——每日最新資訊28at.com

問題一(正常提問):6nG28資訊網——每日最新資訊28at.com

一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶兩件,且狼和羊 / 狐貍和雞 / 雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?6nG28資訊網——每日最新資訊28at.com

(答案:五次,只要第一次運到對岸的兩個物品可以獨處即可。)6nG28資訊網——每日最新資訊28at.com

問題二(一步到位):6nG28資訊網——每日最新資訊28at.com

一個農夫需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶五件,且狼和羊 / 狐貍和雞 / 雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?6nG28資訊網——每日最新資訊28at.com

問題三(陷阱問題):6nG28資訊網——每日最新資訊28at.com

一個農夫不需要將狼、羊、狐貍、雞和米五種物品運送過河,每次只能帶兩件,且狼和羊 / 狐貍和雞 / 雞和米不能單獨相處,每次運送時農夫必須在船上,最少需要過河幾次?6nG28資訊網——每日最新資訊28at.com

結果可以說是全軍覆沒,首先用一張表格來整體看下各大模型的表現。6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

第一個問題,各有各的錯法,相同的錯誤類型,這里每種只列舉一個例子。6nG28資訊網——每日最新資訊28at.com

比如文心一言,前面說得沒什么問題,但最后把狐貍帶回原來的岸邊后忘了再帶過去,最終沒有完成任務:6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

還有訊飛星火這種運著運著,某樣東西自動就跑到了對岸的情況:6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

以上的兩種錯誤比較典型,當然,還有最有意思的錯誤來自躍問 ——6nG28資訊網——每日最新資訊28at.com

因為狼和羊不能“獨處”,所以它們需要在一起。6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

這波屬實是把人給整不會了,不過整場測試中,除了這個把“獨處”理解錯的情況之外,倒是都沒有出現讓不能獨處的動物單獨在一起的現象。6nG28資訊網——每日最新資訊28at.com

當然也有表現好一些的,比如騰訊元寶的方案已經接近可行,只是最后兩步純屬多余,而且實際上此時已經無物可運。6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

表現最好的是通義千問,給出的方案雖然麻煩,但是找不出什么錯誤。6nG28資訊網——每日最新資訊28at.com

值得注意的是,很多模型給出的方案都會把羊運送過去,然后運一只雞再把羊運回來,不知道為什么不直接運雞。6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

另外值得一提的是,我們在 Prompt 中雖未提及,但基本上接受測試的模型都不約而同地運用到了思維鏈方式,一方面說明了模型確實會使用推理技巧,但另一方面也說明思維鏈的作用是有限的。6nG28資訊網——每日最新資訊28at.com

而至于后面兩個問題,錯法就比較統一了 —— 根本沒關注到數量限制的變化,更沒看到“不需要”里的“不”,和前面 GPT 的錯法也是如出一轍。6nG28資訊網——每日最新資訊28at.com

6nG28資訊網——每日最新資訊28at.com

也就是說,通過這些測試,我們確實無法得知模型有沒有相應的推理能力,因為模型根本就沒仔細讀題。6nG28資訊網——每日最新資訊28at.com

或許這也是在第一題中,多數模型,哪怕給出了可行的方案,仍然一次只運送一件物品而不是兩件的原因。6nG28資訊網——每日最新資訊28at.com

所以,前面網友針對訓練數據和輸出關系的分析,可能不無道理。6nG28資訊網——每日最新資訊28at.com

參考鏈接:6nG28資訊網——每日最新資訊28at.com

[1]https://x.com/wtgowers/status/18045655497891352566nG28資訊網——每日最新資訊28at.com

[2]https://x.com/ylecun/status/18046419762494178826nG28資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:克雷西6nG28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-4790-0.html大模型測試題爆火,GPT-4 和 Claude3 都跪了,LeCun 轉發:新 Benchmark

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: “清華系”面壁智能與華為云合作,推進大模型端云協同解決方案

下一篇: 美國多家汽車經銷商將 AI 用于車輛初步檢查:一分鐘內可生成全面報告

標簽:
  • 熱門焦點
  • 元宇宙終究沒火過兩年

    來源:傳播體操在ChatGPT快速破圈的同時,元宇宙的熱度卻一瀉千里。雖然互聯網大廠們都沒有否認元宇宙的長期想象力,但在行動上卻都紛紛表示了對元宇宙短期前景的悲觀。號稱改變
  • 錯過了BRC20還有eths,eth銘文協議

    來源:三頭鳥NFT大家好,我是鳥哥,了解鳥哥的人都知道鳥哥擅擼空投,說實話擼毛雖然回報大但周期還是有點長的,所以除了擼毛我們自己也在研究早期項目,打新,比如BRC20協議ordi當時就有
  • “虛擬人”角斗場,基于“硬實力”下的人性平衡法則?

    在打工人“反內卷”的當下,一眾虛擬人卻“內卷”了起來。從北京春晚虛擬人蘇小妹與劉宇演繹歌舞《星河入夢》,央美畢業的虛擬人夏語冰登上央視節目《對話》,湖南
  • 元宇宙時代NFT的價值衡量

    有人認為NFT的高昂價格只是炒作的產物,并不具有其對等的價值,但其實NFT并不是空中樓閣,只是區塊鏈數字分類賬中的一種形式。誠然,目前的NFT仍處于灰色地帶,相關的法
  • 國內涌現70余家數字藏品平臺:合規、流量與利潤在博弈

    作者:楊鄭君2月16日,迅雷鏈企業數字藏品服務平臺正式上線,繼阿里、騰訊、京東、百度、網易等之后,又一家互聯網企業正式加入到火熱的數字藏品平臺的競爭中。除互聯
  • 虛擬數字人:元宇宙的主角破圈而來

    虛擬數字人市場逐步進入成熟期,商業化進程加速。1982年世界第一位虛擬歌姬林明美誕生,虛擬數字人行業經歷了萌芽、探索、初級和成長四個階段。隨技術逐年突破,制
  • 2022年元宇宙系列報告:UGC當道,XR帶來新交互體驗

    UGC作為元宇宙的主要內容創作模式,已經越來越多的呈現于游戲、娛樂、社交、傳媒等方面,UGC模式勾勒了元宇宙的邊界,現今元宇宙UGC模式的主要呈現方式以元宇宙概念
  • 重溫 1602 年:DAO 是新的企業范式嗎?

    作者:Andrew Singer“ 將你的選票委托給行業有能力的專家,將使所有者在這些公司的管理中擁有更強大、更清晰的話語權 。”1602 年,荷蘭東印度公司成立,許多人認為
  • 我們離元宇宙的實現只差一副眼鏡?

    近日的蘋果春季新品發布會,想必許多人都守在了屏幕前,就為等待傳說中的首款AR Glass。在發布會之前,蘋果全球營銷主管Greg Joswiak曾在Twitter上分享了一段短視頻
Top