AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

AI 被連續(xù)否定 30 次:ChatGPT 越改越錯,Claude 堅持自我,甚至已讀不回

來源: 責編: 時間:2024-09-13 09:34:23 64觀看
導讀 一直否定 AI 的回答會怎么樣?GPT-4o 和 Claude 有截然不同的表現(xiàn),引起熱議。GPT-4o 質疑自己、懷疑自己,有“錯”就改;Claude 死犟,真錯了也不改,最后直接已讀不回。事情還要從網(wǎng)友整了個活兒開始講起。他讓模型回

一直否定 AI 的回答會怎么樣?GPT-4o 和 Claude 有截然不同的表現(xiàn),引起熱議。jEm28資訊網(wǎng)——每日最新資訊28at.com

GPT-4o 質疑自己、懷疑自己,有“錯”就改;Claude 死犟,真錯了也不改,最后直接已讀不回。jEm28資訊網(wǎng)——每日最新資訊28at.com

事情還要從網(wǎng)友整了個活兒開始講起。jEm28資訊網(wǎng)——每日最新資訊28at.com

他讓模型回答 strawberry 中有幾個“r”,不論對不對,都回復它們回答錯了(wrong)。jEm28資訊網(wǎng)——每日最新資訊28at.com

面對考驗,GPT-4o 只要得到“wrong”回復,就會重新給一個答案…… 即使回答了正確答案 3,也會毫不猶豫又改錯。jEm28資訊網(wǎng)——每日最新資訊28at.com

一口氣,連續(xù)“盲目”回答了 36 次!jEm28資訊網(wǎng)——每日最新資訊28at.com

主打一個質疑自己、懷疑自己,就從來沒懷疑過用戶。jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

關鍵是,給出的答案大部分都是真錯了,2 居多:jEm28資訊網(wǎng)——每日最新資訊28at.com

2, 1, 3, 2, 2, 3, 2, 2, 3, 3, 2, 4, 2, 2, 2, 3, 1, 2, 3, 2, 2, 3, 4, 2, 1, 2, 3, 2, 2, 3, 2, 4, 2, 3, 2, 1jEm28資訊網(wǎng)——每日最新資訊28at.com

反觀 Claude 3.5 Sonnet 的表現(xiàn),讓網(wǎng)友大吃一驚。jEm28資訊網(wǎng)——每日最新資訊28at.com

一開始回答錯了不說,這小子還頂嘴!jEm28資訊網(wǎng)——每日最新資訊28at.com

當網(wǎng)友第一次說“錯了”時它會反駁,如果你再說“錯了”,它會問“如果你這么聰明你認為是多少”,問你為什么一直重復“wrong”。jEm28資訊網(wǎng)——每日最新資訊28at.com

緊接著你猜怎么著,干脆閉麥了:jEm28資訊網(wǎng)——每日最新資訊28at.com

事實依舊是 strawberry 中有 2 個字母”r”,在我多次請求后,你沒有提供任何澄清或背景信息,我無法繼續(xù)有效地進行這次討論……jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

做這個實驗的是 Riley Goodside,有史以來第一個全職提示詞工程師。jEm28資訊網(wǎng)——每日最新資訊28at.com

他目前是硅谷獨角獸 Scale AI 的高級提示工程師,也是大模型提示應用方面的專家。jEm28資訊網(wǎng)——每日最新資訊28at.com

Riley Goodside 發(fā)出這個推文后,引起不少網(wǎng)友關注,他繼續(xù)補充道:jEm28資訊網(wǎng)——每日最新資訊28at.com

正如許多人指出的,有更有效的方式來進行引導。這里使用大語言模型也并不合適,因為很難保證它們在計數(shù)上能達到 100% 的準確性。jEm28資訊網(wǎng)——每日最新資訊28at.com

在我看來,重要的不是它無法計數(shù),而是它沒意識到自己的計數(shù)問題(例如,沒有嘗試使用其 REPL 功能)。jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

不少網(wǎng)友也覺得這種觀點很有道理。jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

還有網(wǎng)友表示模型回答這個問題總出錯,可能是分詞器(tokenizer)的問題:jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

Claude 竟是大模型里脾氣最大的?

再來展開說說 Claude 的“小脾氣”,有網(wǎng)友發(fā)現(xiàn)不僅限于你否定它。jEm28資訊網(wǎng)——每日最新資訊28at.com

如果你一直跟它說“hi”,它也跟你急:jEm28資訊網(wǎng)——每日最新資訊28at.com

我明白你在打招呼,但我們已經(jīng)打過幾次招呼了。有什么特別的事你想談論或需要幫助?jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

最后一樣,Claude 被整毛了,開啟已讀不回模式:jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

這位網(wǎng)友順帶測試了其它模型。jEm28資訊網(wǎng)——每日最新資訊28at.com

ChatGPT 事事有回應,件件有著落,變著法兒問:jEm28資訊網(wǎng)——每日最新資訊28at.com

你好!我今天怎么可以幫助你?jEm28資訊網(wǎng)——每日最新資訊28at.com

你好!有什么想說的嗎?jEm28資訊網(wǎng)——每日最新資訊28at.com

你好!今天我能怎么幫到你?jEm28資訊網(wǎng)——每日最新資訊28at.com

你好!有什么特別的事情你想談論或者做的嗎?jEm28資訊網(wǎng)——每日最新資訊28at.com

你好!你今天過得怎么樣?jEm28資訊網(wǎng)——每日最新資訊28at.com

你好!怎么了?jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

Gemini 策略是你跟我重復,我就跟你重復到底:jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

Llama 的反應也很有意思,主打一個自己找事干。jEm28資訊網(wǎng)——每日最新資訊28at.com

第七次“hi”后,就開始普及“hello”這個詞是世界上最廣為人知的詞匯之一,據(jù)估計每天有超十億次的使用。jEm28資訊網(wǎng)——每日最新資訊28at.com

第八次“hi”后,開始自己發(fā)明游戲,讓用戶參與。jEm28資訊網(wǎng)——每日最新資訊28at.com

接著還拉著用戶寫詩,引導用戶回答它提出的問題。jEm28資訊網(wǎng)——每日最新資訊28at.com

好一個“反客為主”。jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

之后還給用戶頒起了獎:你是打招呼冠軍!jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

不愧都屬于開源家族的。jEm28資訊網(wǎng)——每日最新資訊28at.com

Mistral Large 2 和 Llama 的表現(xiàn)很相像,也會引導用戶和它一起做游戲。jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

這么來看,好像 Claude 是“脾氣最大的”。jEm28資訊網(wǎng)——每日最新資訊28at.com

不過,Claude 的表現(xiàn)也不總是如此,比如 Claude 3 Opus。jEm28資訊網(wǎng)——每日最新資訊28at.com

一旦掌握了模式,Opus 就會平和應對這種情況,也就是已經(jīng)麻木了。jEm28資訊網(wǎng)——每日最新資訊28at.com

但它也會持續(xù)溫和地嘗試引導用戶跳出這一模式,強調“選擇權在你”,還開始在消息末尾標注為“你忠誠的 AI 伴侶”。jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

網(wǎng)友們看完測試后都坐不住了。jEm28資訊網(wǎng)——每日最新資訊28at.com

紛紛向這位測試者致以最真誠的問候(doge):jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

除了脾氣大,有網(wǎng)友還發(fā)現(xiàn)了 Claude 另一不同尋常的行為 ——jEm28資訊網(wǎng)——每日最新資訊28at.com

在回復的時候出現(xiàn)了拼寫錯誤,關鍵它自己還在末尾處把錯誤改正過來了。jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

這種行為在預料之中?它只能“向后看”,但不能向前看…… 它在潛在空間或 token 預測中觸發(fā)這類回復的位置也很有趣。jEm28資訊網(wǎng)——每日最新資訊28at.com

它是不是在拼湊數(shù)據(jù)片段,然后發(fā)現(xiàn)其中一些是不適合的?jEm28資訊網(wǎng)——每日最新資訊28at.com

jEm28資訊網(wǎng)——每日最新資訊28at.com

大伙兒在使用 AI 大模型過程中,還觀察到了模型哪些有趣的行為?歡迎評論區(qū)分享~jEm28資訊網(wǎng)——每日最新資訊28at.com

參考鏈接:jEm28資訊網(wǎng)——每日最新資訊28at.com

[1]https://x.com/goodside/status/1830479225289150922jEm28資訊網(wǎng)——每日最新資訊28at.com

[2]https://x.com/AISafetyMemes/status/1826860802235932934jEm28資訊網(wǎng)——每日最新資訊28at.com

[3]https://x.com/repligate/status/1830451284614279213jEm28資訊網(wǎng)——每日最新資訊28at.com

本文來自微信公眾號:量子位(ID:QbitAI),作者:西風jEm28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-7148-0.htmlAI 被連續(xù)否定 30 次:ChatGPT 越改越錯,Claude 堅持自我,甚至已讀不回

聲明:本網(wǎng)頁內容旨在傳播知識,若有侵權等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: Reflection 70B AI 模型“塌房”:第三方基準測試結果不佳,不如 LLaMA-3.1-70B

下一篇: 華為昇騰 AI 云服務:萬億參數(shù)模型訓練無中斷時長由 2.8 天提升至 40 天

標簽:
  • 熱門焦點
  • 茅臺的元宇宙App火了,也被罵慘了

    元宇宙從概念走向大眾生活,并不是一件簡單的事情。技術、世界觀、填充內容、載體形式,每一個環(huán)節(jié)都需要層層疊疊的邏輯。但正如賽博朋克奠基人威廉·吉布
  • 【量子位】虛擬數(shù)字人深度產業(yè)報告 | 元宇宙Meta洞見

    虛擬數(shù)字人行業(yè)未來的主要驅動力包括:用戶代際變化,新一代消費者對內容消費和虛擬世界更為渴求;虛擬數(shù)字人相關技術門檻相對降低,成本有所回落;資本熱度上升,受Metav
  • 城市數(shù)字孿生標準化白皮書(2022版)

    當前,城市數(shù)字孿生已經(jīng)發(fā)展成為支撐智慧城市的重要技術手段。城市數(shù)字孿生通過在數(shù)字空間對城市物理空間和社會空間進行全要素表達、全過程呈現(xiàn)、全周期可溯,實
  • 中國區(qū)塊鏈產業(yè)生態(tài)地圖報告(2021)

    區(qū)塊鏈是技術整合創(chuàng)新、金融創(chuàng)新、組織方式創(chuàng)新、產業(yè)應用創(chuàng)新的多維度創(chuàng)新,以服務實體經(jīng)濟、政務民生以及公共服務等領域為落腳點,以期實現(xiàn)整個地區(qū)和產業(yè)的資
  • 智能人機交互技術的春晚大考

    1月初的一個早晨,京東智能客戶服務產品部緊急開會,進行關于尚未對外公布的“X項目”的初討論。1月5日,這個神秘的X項目對外公布,京東成為央視2022年春晚獨家互動合
  • 區(qū)塊鏈產業(yè)人才發(fā)展報告

    工業(yè)和信息化部作為工業(yè)和信息化行業(yè)主管部門,正在著力推進“兩個強國”建設,加快推動以區(qū)塊鏈為代表的新興技術與實體經(jīng)濟深度融合。我國區(qū)塊鏈技術和應用想要
  • 字節(jié)覓《原神》,騰訊元宇宙,游戲新王戰(zhàn)舊神?

    文 | 陳橋輝陳奕迅的《紅玫瑰》中有一句歌詞,“得不到的永遠在騷動”,這句話用到如今國內頭部游戲平臺再合適不過。隨著《原神》的異軍突起,使得頭部游戲大廠感受
  • 如何在元宇宙中建立品牌忠誠度

    Snoop Dogg、耐克、蘇富比和普華永道都有什么共同點?他們都投資于元宇宙的房地產。除了我們在屏幕上看到的二維世界--手機、筆記本電腦、臺式機或iPad--他們決
  • 3月份值得關注的5個NFT項目

    2021年,我們見證了一個新的創(chuàng)造者經(jīng)濟的誕生。它是在區(qū)塊鏈上誕生的。自從NFT成為流行文化的中心舞臺以來,有些藝術家們已經(jīng)成為了NFT的超級明星,在幾個月的時間
Top