AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

AI 被連續否定 30 次:ChatGPT 越改越錯,Claude 堅持自我,甚至已讀不回

來源: 責編: 時間:2024-09-13 09:34:23 116觀看
導讀 一直否定 AI 的回答會怎么樣?GPT-4o 和 Claude 有截然不同的表現,引起熱議。GPT-4o 質疑自己、懷疑自己,有“錯”就改;Claude 死犟,真錯了也不改,最后直接已讀不回。事情還要從網友整了個活兒開始講起。他讓模型回

一直否定 AI 的回答會怎么樣?GPT-4o 和 Claude 有截然不同的表現,引起熱議。Rd028資訊網——每日最新資訊28at.com

GPT-4o 質疑自己、懷疑自己,有“錯”就改;Claude 死犟,真錯了也不改,最后直接已讀不回。Rd028資訊網——每日最新資訊28at.com

事情還要從網友整了個活兒開始講起。Rd028資訊網——每日最新資訊28at.com

他讓模型回答 strawberry 中有幾個“r”,不論對不對,都回復它們回答錯了(wrong)。Rd028資訊網——每日最新資訊28at.com

面對考驗,GPT-4o 只要得到“wrong”回復,就會重新給一個答案…… 即使回答了正確答案 3,也會毫不猶豫又改錯。Rd028資訊網——每日最新資訊28at.com

一口氣,連續“盲目”回答了 36 次!Rd028資訊網——每日最新資訊28at.com

主打一個質疑自己、懷疑自己,就從來沒懷疑過用戶。Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

關鍵是,給出的答案大部分都是真錯了,2 居多:Rd028資訊網——每日最新資訊28at.com

2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1Rd028資訊網——每日最新資訊28at.com

反觀 Claude 3.5 Sonnet 的表現,讓網友大吃一驚。Rd028資訊網——每日最新資訊28at.com

一開始回答錯了不說,這小子還頂嘴!Rd028資訊網——每日最新資訊28at.com

當網友第一次說“錯了”時它會反駁,如果你再說“錯了”,它會問“如果你這么聰明你認為是多少”,問你為什么一直重復“wrong”。Rd028資訊網——每日最新資訊28at.com

緊接著你猜怎么著,干脆閉麥了:Rd028資訊網——每日最新資訊28at.com

事實依舊是 strawberry 中有 2 個字母”r”,在我多次請求后,你沒有提供任何澄清或背景信息,我無法繼續有效地進行這次討論……Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

做這個實驗的是 Riley Goodside,有史以來第一個全職提示詞工程師。Rd028資訊網——每日最新資訊28at.com

他目前是硅谷獨角獸 Scale AI 的高級提示工程師,也是大模型提示應用方面的專家。Rd028資訊網——每日最新資訊28at.com

Riley Goodside 發出這個推文后,引起不少網友關注,他繼續補充道:Rd028資訊網——每日最新資訊28at.com

正如許多人指出的,有更有效的方式來進行引導。這里使用大語言模型也并不合適,因為很難保證它們在計數上能達到 100% 的準確性。Rd028資訊網——每日最新資訊28at.com

在我看來,重要的不是它無法計數,而是它沒意識到自己的計數問題(例如,沒有嘗試使用其 REPL 功能)。Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

不少網友也覺得這種觀點很有道理。Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

還有網友表示模型回答這個問題總出錯,可能是分詞器(tokenizer)的問題:Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

Claude 竟是大模型里脾氣最大的?

再來展開說說 Claude 的“小脾氣”,有網友發現不僅限于你否定它。Rd028資訊網——每日最新資訊28at.com

如果你一直跟它說“hi”,它也跟你急:Rd028資訊網——每日最新資訊28at.com

我明白你在打招呼,但我們已經打過幾次招呼了。有什么特別的事你想談論或需要幫助?Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

最后一樣,Claude 被整毛了,開啟已讀不回模式:Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

這位網友順帶測試了其它模型。Rd028資訊網——每日最新資訊28at.com

ChatGPT 事事有回應,件件有著落,變著法兒問:Rd028資訊網——每日最新資訊28at.com

你好!我今天怎么可以幫助你?Rd028資訊網——每日最新資訊28at.com

你好!有什么想說的嗎?Rd028資訊網——每日最新資訊28at.com

你好!今天我能怎么幫到你?Rd028資訊網——每日最新資訊28at.com

你好!有什么特別的事情你想談論或者做的嗎?Rd028資訊網——每日最新資訊28at.com

你好!你今天過得怎么樣?Rd028資訊網——每日最新資訊28at.com

你好!怎么了?Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

Gemini 策略是你跟我重復,我就跟你重復到底:Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

Llama 的反應也很有意思,主打一個自己找事干。Rd028資訊網——每日最新資訊28at.com

第七次“hi”后,就開始普及“hello”這個詞是世界上最廣為人知的詞匯之一,據估計每天有超十億次的使用。Rd028資訊網——每日最新資訊28at.com

第八次“hi”后,開始自己發明游戲,讓用戶參與。Rd028資訊網——每日最新資訊28at.com

接著還拉著用戶寫詩,引導用戶回答它提出的問題。Rd028資訊網——每日最新資訊28at.com

好一個“反客為主”。Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

之后還給用戶頒起了獎:你是打招呼冠軍!Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

不愧都屬于開源家族的。Rd028資訊網——每日最新資訊28at.com

Mistral Large 2 和 Llama 的表現很相像,也會引導用戶和它一起做游戲。Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

這么來看,好像 Claude 是“脾氣最大的”。Rd028資訊網——每日最新資訊28at.com

不過,Claude 的表現也不總是如此,比如 Claude 3 Opus。Rd028資訊網——每日最新資訊28at.com

一旦掌握了模式,Opus 就會平和應對這種情況,也就是已經麻木了。Rd028資訊網——每日最新資訊28at.com

但它也會持續溫和地嘗試引導用戶跳出這一模式,強調“選擇權在你”,還開始在消息末尾標注為“你忠誠的 AI 伴侶”。Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

網友們看完測試后都坐不住了。Rd028資訊網——每日最新資訊28at.com

紛紛向這位測試者致以最真誠的問候(doge):Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

除了脾氣大,有網友還發現了 Claude 另一不同尋常的行為 ——Rd028資訊網——每日最新資訊28at.com

在回復的時候出現了拼寫錯誤,關鍵它自己還在末尾處把錯誤改正過來了。Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

這種行為在預料之中?它只能“向后看”,但不能向前看…… 它在潛在空間或 token 預測中觸發這類回復的位置也很有趣。Rd028資訊網——每日最新資訊28at.com

它是不是在拼湊數據片段,然后發現其中一些是不適合的?Rd028資訊網——每日最新資訊28at.com

Rd028資訊網——每日最新資訊28at.com

大伙兒在使用 AI 大模型過程中,還觀察到了模型哪些有趣的行為?歡迎評論區分享~Rd028資訊網——每日最新資訊28at.com

參考鏈接:Rd028資訊網——每日最新資訊28at.com

[1]https://x.com/goodside/status/1830479225289150922Rd028資訊網——每日最新資訊28at.com

[2]https://x.com/AISafetyMemes/status/1826860802235932934Rd028資訊網——每日最新資訊28at.com

[3]https://x.com/repligate/status/1830451284614279213Rd028資訊網——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:西風Rd028資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-7148-0.htmlAI 被連續否定 30 次:ChatGPT 越改越錯,Claude 堅持自我,甚至已讀不回

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: Reflection 70B AI 模型“塌房”:第三方基準測試結果不佳,不如 LLaMA-3.1-70B

下一篇: 華為昇騰 AI 云服務:萬億參數模型訓練無中斷時長由 2.8 天提升至 40 天

標簽:
  • 熱門焦點
Top