當前位置：首頁 > 元宇宙 > AI

AI 被連續否定 30 次：ChatGPT 越改越錯，Claude 堅持自我，甚至已讀不回

來源：責編：時間：2024-09-13 09:34:23 116觀看

導讀一直否定 AI 的回答會怎么樣？GPT-4o 和 Claude 有截然不同的表現，引起熱議。GPT-4o 質疑自己、懷疑自己，有“錯”就改；Claude 死犟，真錯了也不改，最后直接已讀不回。事情還要從網友整了個活兒開始講起。他讓模型回

一直否定 AI 的回答會怎么樣？GPT-4o 和 Claude 有截然不同的表現，引起熱議。

GPT-4o 質疑自己、懷疑自己，有“錯”就改；Claude 死犟，真錯了也不改，最后直接已讀不回。

事情還要從網友整了個活兒開始講起。

他讓模型回答 strawberry 中有幾個“r”，不論對不對，都回復它們回答錯了（wrong）。

面對考驗，GPT-4o 只要得到“wrong”回復，就會重新給一個答案…… 即使回答了正確答案 3，也會毫不猶豫又改錯。

一口氣，連續“盲目”回答了 36 次！

主打一個質疑自己、懷疑自己，就從來沒懷疑過用戶。

關鍵是，給出的答案大部分都是真錯了，2 居多：

2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1

反觀 Claude 3.5 Sonnet 的表現，讓網友大吃一驚。

一開始回答錯了不說，這小子還頂嘴！

當網友第一次說“錯了”時它會反駁，如果你再說“錯了”，它會問“如果你這么聰明你認為是多少”，問你為什么一直重復“wrong”。

緊接著你猜怎么著，干脆閉麥了：

事實依舊是 strawberry 中有 2 個字母”r”，在我多次請求后，你沒有提供任何澄清或背景信息，我無法繼續有效地進行這次討論……

做這個實驗的是 Riley Goodside，有史以來第一個全職提示詞工程師。

他目前是硅谷獨角獸 Scale AI 的高級提示工程師，也是大模型提示應用方面的專家。

Riley Goodside 發出這個推文后，引起不少網友關注，他繼續補充道：

正如許多人指出的，有更有效的方式來進行引導。這里使用大語言模型也并不合適，因為很難保證它們在計數上能達到 100% 的準確性。

在我看來，重要的不是它無法計數，而是它沒意識到自己的計數問題（例如，沒有嘗試使用其 REPL 功能）。

不少網友也覺得這種觀點很有道理。

還有網友表示模型回答這個問題總出錯，可能是分詞器（tokenizer）的問題：

Claude 竟是大模型里脾氣最大的？

再來展開說說 Claude 的“小脾氣”，有網友發現不僅限于你否定它。

如果你一直跟它說“hi”，它也跟你急：

我明白你在打招呼，但我們已經打過幾次招呼了。有什么特別的事你想談論或需要幫助？

最后一樣，Claude 被整毛了，開啟已讀不回模式：

這位網友順帶測試了其它模型。

ChatGPT 事事有回應，件件有著落，變著法兒問:

你好！我今天怎么可以幫助你？

你好！有什么想說的嗎？

你好！今天我能怎么幫到你？

你好！有什么特別的事情你想談論或者做的嗎？

你好！你今天過得怎么樣？

你好！怎么了？

Gemini 策略是你跟我重復，我就跟你重復到底：

Llama 的反應也很有意思，主打一個自己找事干。

第七次“hi”后，就開始普及“hello”這個詞是世界上最廣為人知的詞匯之一，據估計每天有超十億次的使用。

第八次“hi”后，開始自己發明游戲，讓用戶參與。

接著還拉著用戶寫詩，引導用戶回答它提出的問題。

好一個“反客為主”。

之后還給用戶頒起了獎：你是打招呼冠軍！

不愧都屬于開源家族的。

Mistral Large 2 和 Llama 的表現很相像，也會引導用戶和它一起做游戲。

這么來看，好像 Claude 是“脾氣最大的”。

不過，Claude 的表現也不總是如此，比如 Claude 3 Opus。

一旦掌握了模式，Opus 就會平和應對這種情況，也就是已經麻木了。

但它也會持續溫和地嘗試引導用戶跳出這一模式，強調“選擇權在你”，還開始在消息末尾標注為“你忠誠的 AI 伴侶”。

網友們看完測試后都坐不住了。

紛紛向這位測試者致以最真誠的問候（doge）：

除了脾氣大，有網友還發現了 Claude 另一不同尋常的行為 ——

在回復的時候出現了拼寫錯誤，關鍵它自己還在末尾處把錯誤改正過來了。

這種行為在預料之中？它只能“向后看”，但不能向前看…… 它在潛在空間或 token 預測中觸發這類回復的位置也很有趣。

它是不是在拼湊數據片段，然后發現其中一些是不適合的？

大伙兒在使用 AI 大模型過程中，還觀察到了模型哪些有趣的行為？歡迎評論區分享～

參考鏈接：

[1]https://x.com/goodside/status/1830479225289150922

[2]https://x.com/AISafetyMemes/status/1826860802235932934

[3]https://x.com/repligate/status/1830451284614279213

本文來自微信公眾號：量子位（ID：QbitAI），作者：西風

本文鏈接：http://www.tebozhan.com/showinfo-45-7148-0.htmlAI 被連續否定 30 次：ChatGPT 越改越錯，Claude 堅持自我，甚至已讀不回

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： Reflection 70B AI 模型“塌房”：第三方基準測試結果不佳，不如 LLaMA-3.1-70B

下一篇：華為昇騰 AI 云服務：萬億參數模型訓練無中斷時長由 2.8 天提升至 40 天

標簽：

熱門焦點

AIGC產品測評TOP25丨誰能搶到下個十年的“船票”？

Tech星球（微信ID：tech618）文 | 何煦陽策劃 | 楊曉鶴封面來源 | 圖蟲創意 2016年，李彥宏站在百度聯盟峰會的講臺上，向所有人宣布：互聯網的下一幕是人工智能。同年，Google 旗下 Dee
亞馬遜AIGC全家桶來襲，巨頭AI大亂戰都有什么殺手锏

此前，亞馬遜云科技發布多款AIGC產品，其中包括AI大模型服務Amazon Bedrock、人工智能計算實例Amazon EC2 Trn1n和Amazon EC2 Inf2、自研“泰坦”（Titan）AI大模型、軟件
藍標虧錢、Meta裁員：天下秀還值得砸錢元宇宙嗎？

日前，天下秀數字科技集團正式公布了2022年報及2023年一季報。報告顯示，2022年天下秀實現營收41.29億元，同比下滑8.48%；歸母凈利潤1.8億元，同比下滑49.2%，幾乎出現了盈利腰斬的態勢
一個視頻漲粉百萬，柳夜熙們能成為元宇宙的“船票”嗎？

當數字人成為一種生意，我們更關心的是，他們如何賺到錢，以及這意味著什么？01#“柳夜熙”爆火之后不知道大家還記不記得，去年10月31日萬圣節，有一位虛擬美妝
星展銀行(DBS)計劃推出零售數字資產交易服務

2月14日消息，新加坡星展銀行CEO Piyush Gupta在財報會議上表示，計劃于2022年年底前推出零售數字資產交易服務。據悉，DBS于2021年初開設了機構數字資產交易平臺，全
區塊鏈產業人才發展報告

工業和信息化部作為工業和信息化行業主管部門，正在著力推進“兩個強國”建設，加快推動以區塊鏈為代表的新興技術與實體經濟深度融合。我國區塊鏈技術和應用想要
借VR產業東風，江西搶灘布局“元宇宙”

自2016年起就在VR上傾注了大量精力的江西省，迅速搭上了“元宇宙”。VR、AR等技術是通往元宇宙的關鍵接口，使人們可以在數字空間和物理空間自由穿梭。自2016年起
NFT也有黃牛？這家公司專門對付外掛作弊機器人

澳大利亞前總理馬爾科姆·特恩布爾 (Malcolm Turnbull) 是支持薩姆·Crowther (Sam Crowther) 的人之一，Sam是一名出生于紐卡斯爾的黑客，他的職業生涯始于為國防
美國單曲排行榜Billboard和World of Women合作推出NFT雜志封面

今天，Billboard宣布與流行的NFT頭像集World of Women（WoW）建立新的伙伴關系，向NFT生態系統又邁進了一步。在這次合作中，WoW的創建者Yam Karkai將幫助這個音樂行業巨

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

AI 被連續否定 30 次：ChatGPT 越改越錯，Claude 堅持自我，甚至已讀不回

AIGC產品測評TOP25丨誰能搶到下個十年的“船票”？

亞馬遜AIGC全家桶來襲，巨頭AI大亂戰都有什么殺手锏

藍標虧錢、Meta裁員：天下秀還值得砸錢元宇宙嗎？

一個視頻漲粉百萬，柳夜熙們能成為元宇宙的“船票”嗎？

星展銀行(DBS)計劃推出零售數字資產交易服務

區塊鏈產業人才發展報告

借VR產業東風，江西搶灘布局“元宇宙”

NFT也有黃牛？這家公司專門對付外掛作弊機器人

美國單曲排行榜Billboard和World of Women合作推出NFT雜志封面

最新推薦

FMIFAwards獎項即將揭曉！

從英式拍到荷蘭拍，看傳統金融拍賣玩法如何玩轉NFT市場交易

NFT行業的三大區塊鏈之一引起了Snoop Dogg的強烈興趣，究竟有何潛力？

知名藝術家打造去中心化“好萊塢”：一部電影一個DAO

這場虛擬發布會，當面“造假”！

超級賬本Julian Gordon：聯盟鏈與公鏈的競爭不是非此即彼

猜你喜歡

熱門推薦

相關資訊