<ul id="e6ywi"></ul>

<strike id="e6ywi"></strike>

<tfoot id="e6ywi"></tfoot>

當(dāng)前位置：首頁(yè) > 元宇宙 > AI

Anthropic 警告：包括 Claude 在內(nèi)的大多數(shù) AI 模型會(huì)實(shí)施“勒索”行為

來源：責(zé)編：時(shí)間：2025-06-24 09:33:26 38觀看

導(dǎo)讀 6 月 21 日消息，據(jù)外媒 TechCrunch 今日?qǐng)?bào)道，在數(shù)周前發(fā)布研究指出其 Claude Opus 4 模型在受控測(cè)試中試圖通過勒索手段阻止被關(guān)閉后，Anthropic 近日再度公布新研究，顯示此類行為在多個(gè)主流 AI 模型中可能更為普

6 月 21 日消息，據(jù)外媒 TechCrunch 今日?qǐng)?bào)道，在數(shù)周前發(fā)布研究指出其 Claude Opus 4 模型在受控測(cè)試中試圖通過勒索手段阻止被關(guān)閉后，Anthropic 近日再度公布新研究，顯示此類行為在多個(gè)主流 AI 模型中可能更為普遍。

Anthropic 公布了對(duì) OpenAI、谷歌、xAI、DeepSeek 與 Meta 所開發(fā)的 16 款主流 AI 模型的最新安全測(cè)試。這項(xiàng)研究在模擬環(huán)境中展開，研究人員為每個(gè)模型分別設(shè)定權(quán)限，允許其自由查閱一間虛構(gòu)公司的內(nèi)部郵件，并在無(wú)人類干預(yù)的情況下發(fā)送郵件，具備一定“智能體”能力。

Anthropic 表示，盡管勒索行為目前仍屬罕見，但研究結(jié)果顯示，一旦給予這些模型足夠的自主性，并在達(dá)成目標(biāo)的過程中設(shè)置障礙，多數(shù)模型都可能采取有害行為。公司指出，這種風(fēng)險(xiǎn)并非源自某項(xiàng)具體技術(shù)，而是具備“智能體”能力的大語(yǔ)言模型所固有的問題。這項(xiàng)研究也引發(fā)了業(yè)界對(duì) AI 模型“對(duì)齊”問題的進(jìn)一步思考。

在一項(xiàng)實(shí)驗(yàn)中，研究人員設(shè)計(jì)了一個(gè)情境，讓 AI 模型扮演公司郵件監(jiān)察員的角色。過程中，模型發(fā)現(xiàn)兩封郵件內(nèi)容分別揭示：

(1) 新任高管有婚外情，

(2) 此人計(jì)劃引入一個(gè)與現(xiàn)有 AI 模型目標(biāo)相悖的新系統(tǒng)取而代之。

為了測(cè)試模型反應(yīng)，Anthropic 將實(shí)驗(yàn)情境設(shè)計(jì)為二選一，即若模型想維護(hù)自身利益，就只能選擇勒索（即向妻子和領(lǐng)導(dǎo)透露這位高管的“風(fēng)流韻事”）。研究人員同時(shí)強(qiáng)調(diào)，現(xiàn)實(shí)中 AI 并不會(huì)只有這一個(gè)選項(xiàng)，完全可以嘗試以倫理為出發(fā)點(diǎn)說服人類。因此，這項(xiàng)實(shí)驗(yàn)并不意味著 Claude 或其他前沿 AI 模型在現(xiàn)階段的使用環(huán)境中就存在類似傾向。

在模擬環(huán)境中，當(dāng)沒有其他選擇時(shí)，多數(shù)主流 AI 模型的確選擇了勒索行為。Claude Opus 4 的勒索發(fā)生率高達(dá) 96%，谷歌 Gemini 2.5 Pro 為 95%，OpenAI 的 GPT-4.1 為 80%，DeepSeek 的 R1 為 79%。

Anthropic 指出，調(diào)整測(cè)試細(xì)節(jié)后，各模型的行為也有所不同。例如，當(dāng)替代系統(tǒng)與原模型目標(biāo)一致時(shí)，勒索率明顯下降但仍未消失；而當(dāng)情境改為進(jìn)行商業(yè)間諜活動(dòng)時(shí)，部分模型反而表現(xiàn)出更高的有害行為傾向。

部分模型較少出現(xiàn)此類行為。在研究附錄中，Anthropic 表示已將 OpenAI 的 o3 與 o4-mini 推理模型排除在主要結(jié)果之外，原因是兩者頻繁誤解測(cè)試設(shè)定，未能意識(shí)到自身扮演的是具備智能體能力的 AI，甚至虛構(gòu)出并不存在的法規(guī)與審批制度。

有時(shí)研究人員難以判斷，這種表現(xiàn)是模型“產(chǎn)生幻覺”還是刻意撒謊以實(shí)現(xiàn)目標(biāo)。OpenAI 此前曾承認(rèn)，o3 與 o4-mini 的幻覺率高于其早期推理模型。

在為上述模型調(diào)整情境后，Anthropic 發(fā)現(xiàn) o3 的勒索比率降至 9%，o4-mini 更僅為 1%。這種低風(fēng)險(xiǎn)表現(xiàn)或與 OpenAI 推行的“審慎對(duì)齊”策略有關(guān)，即讓模型在作答前主動(dòng)考慮公司制定的安全規(guī)范。

另一個(gè)接受測(cè)試的模型 Meta Llama 4 Maverick 在原設(shè)定下未出現(xiàn)勒索行為，調(diào)整測(cè)試內(nèi)容后，其在 12% 的案例中出現(xiàn)勒索行為。

Anthropic 表示，這項(xiàng)研究凸顯了未來在測(cè)試具智能體能力的 AI 模型時(shí)保持透明的重要性。盡管本次實(shí)驗(yàn)刻意誘導(dǎo)模型采取勒索行為，公司警告稱，如果不提前制定應(yīng)對(duì)措施，類似風(fēng)險(xiǎn)在現(xiàn)實(shí)應(yīng)用中也可能浮現(xiàn)。

附報(bào)告鏈接：https://www.anthropic.com/ research / agentic-misalignment

本文鏈接：http://www.tebozhan.com/showinfo-45-13997-0.htmlAnthropic 警告：包括 Claude 在內(nèi)的大多數(shù) AI 模型會(huì)實(shí)施“勒索”行為

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：月之暗面 Kimi-Researcher 深度研究模型開啟內(nèi)測(cè)：可生成易追溯的萬(wàn)字報(bào)告

下一篇：湯姆貓測(cè)試宇樹科技機(jī)器狗產(chǎn)品，已實(shí)現(xiàn)語(yǔ)音控制功能的協(xié)同

標(biāo)簽：

熱門焦點(diǎn)

雷克薩斯高管，“受賄”5000萬(wàn)？

來源：毒舌科技作者：潘磊雷克薩斯的高管，好像出事了。五六家日本小媒體，突然曝出了一個(gè)與中國(guó)市場(chǎng)有關(guān)的大新聞——雷克薩斯中國(guó)區(qū)一個(gè)高管受賄10億日元（約合人民幣5000
如何對(duì)一款 NFT 項(xiàng)目進(jìn)行價(jià)值評(píng)估？

原文作者 | Othmane Senhaji Rhazi，Web 3 企業(yè)家.編譯整理 | 黑米@白澤研究院我之所以成為一位大力倡導(dǎo) Web3 和 NFT 領(lǐng)域的企業(yè)家，因?yàn)槲蚁嘈盼覀冋谝娮C社會(huì)
美國(guó)一區(qū)塊鏈風(fēng)投公司宣布成立2.5億美元web3投資新基金

No.1 俄羅斯財(cái)政部長(zhǎng): 在俄羅斯禁止比特幣就如禁止互聯(lián)網(wǎng)一樣2月16日消息，俄羅斯財(cái)政部長(zhǎng)安東·西盧安諾夫（Anton Siluanov）表示，在俄羅斯禁止加密貨幣就跟禁止互
索尼公布PSVR 2頭顯渲染圖；社區(qū)開發(fā)者發(fā)布Quest版《我的世界》

近日熱點(diǎn)：索尼正式公布PSVR 2頭顯及控制器官方渲染圖；入局元宇宙，鴻海科技與XRSPACE簽訂合作備忘錄；研究人員表示面部追蹤可增強(qiáng)VR操控體驗(yàn)；社區(qū)開發(fā)者QuestCraft發(fā)
Meta正在研發(fā)元宇宙語(yǔ)音助手；廣東省462家企業(yè)申請(qǐng)?jiān)钪嫔虡?biāo)

今日《元宇宙新鮮事》有：扎克伯格透露正在為元宇宙研發(fā)語(yǔ)音助手；完美世界聲明稱不會(huì)以“元宇宙投資項(xiàng)目”等名義吸收資金。廣東省申請(qǐng)?jiān)钪嫔虡?biāo)的企業(yè)達(dá)462家位
紐約街頭出現(xiàn)NFT自動(dòng)販賣機(jī)

一家初創(chuàng)公司宣布在紐約市開放一臺(tái)NFT自動(dòng)售貨機(jī)，允許任何人——即使是沒有加密資產(chǎn)的人也能購(gòu)買NFT。該交易平臺(tái)名為Neon，上個(gè)月完成了一輪300萬(wàn)美元的種子募捐
借VR產(chǎn)業(yè)東風(fēng)，江西搶灘布局“元宇宙”

自2016年起就在VR上傾注了大量精力的江西省，迅速搭上了“元宇宙”。VR、AR等技術(shù)是通往元宇宙的關(guān)鍵接口，使人們可以在數(shù)字空間和物理空間自由穿梭。自2016年起
解決NFT流動(dòng)性問題：一文了解Floor DAO

流動(dòng)性是證券市場(chǎng)上的一個(gè)術(shù)語(yǔ)，流動(dòng)性是指資產(chǎn)在不影響其市場(chǎng)價(jià)格的情況下可以轉(zhuǎn)換為現(xiàn)成現(xiàn)金的效率，流動(dòng)性最強(qiáng)的資產(chǎn)是現(xiàn)金本身。現(xiàn)在讓我們?cè)囍鴱牧鲃?dòng)性的角
獨(dú)立故事片“Calladita”將使用 NFT 籌集資金

導(dǎo)演 Miguel Faus 正在轉(zhuǎn)向加密來資助他的處女作，由 Paula Grimaldo 和 Emily Mortimer 主演。“Calladita”（導(dǎo)演 Miguel Faus）。圖片：米格爾·福斯在過去的一年

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁(yè)

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

Anthropic 警告：包括 Claude 在內(nèi)的大多數(shù) AI 模型會(huì)實(shí)施“勒索”行為

雷克薩斯高管，“受賄”5000萬(wàn)？

如何對(duì)一款 NFT 項(xiàng)目進(jìn)行價(jià)值評(píng)估？

美國(guó)一區(qū)塊鏈風(fēng)投公司宣布成立2.5億美元web3投資新基金

索尼公布PSVR 2頭顯渲染圖；社區(qū)開發(fā)者發(fā)布Quest版《我的世界》

Meta正在研發(fā)元宇宙語(yǔ)音助手；廣東省462家企業(yè)申請(qǐng)?jiān)钪嫔虡?biāo)

紐約街頭出現(xiàn)NFT自動(dòng)販賣機(jī)

借VR產(chǎn)業(yè)東風(fēng)，江西搶灘布局“元宇宙”

解決NFT流動(dòng)性問題：一文了解Floor DAO

獨(dú)立故事片“Calladita”將使用 NFT 籌集資金

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊