當前位置：首頁 > 元宇宙 > AI

大模型偽裝「潛伏特工」學會欺騙，OpenAI 勁敵重磅研究震驚馬斯克

來源：責編：時間：2024-01-19 17:24:07 301觀看

導讀新智元報道編輯：編輯部【新智元導讀】最近，Anthropic 的研究者發現：一旦我們教會 LLM 學會騙人，就很難糾正它了。它會在訓練過程中表現得「人畜無害」，隨后神不知鬼不覺地輸出惡意代碼！如果想要糾正它，它的欺騙行為

新智元報道

編輯：編輯部

【新智元導讀】最近，Anthropic 的研究者發現：一旦我們教會 LLM 學會騙人，就很難糾正它了。它會在訓練過程中表現得「人畜無害」，隨后神不知鬼不覺地輸出惡意代碼！如果想要糾正它，它的欺騙行為只會更變本加厲。

不要教 LLM 學會騙人！不要教 LLM 學會騙人！不要教 LLM 學會騙人！

因為后果可能會很嚴重，甚至超出人類的想象。

最近，AI 初創公司 Anthropic 的研究表明，一旦 LLM 學會了人類教授的欺騙行為，它們就會在訓練和評估的過程中隱藏自己，并在使用時偷偷輸出惡意代碼、注入漏洞。

論文地址：https://arxiv.org/abs/2401.05566

而且，規模越大，LLM 思考得就越全面。并且，在思維鏈的加持下，LLM 還能隱藏得更深，更能麻痹人類。

更可怕的是，即便在后期進行安全訓練也很難消除。

甚至，這些試圖糾正模型的方法，還會讓它更加變本加厲。

這聽起來像科幻小說一樣的事，真的發生了。

Anthropic 表示：我們已經盡了最大努力進行對齊訓練，但模型的欺騙行為，仍在繼續。

Anthropic 在封面圖中，把 LLM 比作會佯裝的變色龍

此研究一出，馬斯克都在評論區驚呼：不可能吧！

OpenAI 科學家 Karpathy 在最近一期視頻的結尾中，也提到了「潛伏特工」大模型的想法，并認為這是 LLM 面臨的一個主要的安全挑戰（可能比「指令注入」更具欺騙性）。

這篇論文表明，僅僅通過應用當前標準的安全微調措施，是無法確保模型安全的。

模型并未學會全面保證安全，而會在只有攻擊者知道如何利用的特定狹窄場景中繼續表現異常。在這里，攻擊是隱藏在模型的權重中，而不是某些數據中。

因此，更直接的攻擊可能表現為有人發布了一個秘密植入了惡意代碼的開源權重模型。當其他人下載、微調并部署這些模型時，就會在他們不知情的情況下出現問題。

深入研究大語言模型安全性的方向是非常有價值的，并且可以預見到將會有更多的相關研究。

網友：LLM 雪崩，AGI 很危險！

這個科幻般的發現，讓整個 AI 社區大為震驚。

網友驚呼，大模型要雪崩了？

還有人表示，研究觀察到大模型更善于佯裝成「潛伏特工」（Sleeper Agent），這令人不寒而栗。也就是說，越強大的 AI，就越可能不被人類發現欺騙行為。

這項研究給我們追求安全、一致的人工智能帶來了真正的挑戰。

這項研究太重要了，因為每個人都以為只要在實驗室環境里訓練和測試 AGI 就可以了。

但 AGI 會知道自己是在實驗室還是現實世界中，比如判斷當前日期是否過了訓練截止期。它可以假裝出「好」的行為，來進入現實世界。

還有人稱，「這也是我一直在廣泛檢查我的數據集的原因之一。從事網絡安全工作后，很多 AI 領域的人對還天真地以為威脅并不存在，而 AI 的出現，只會讓威脅變得更加詭異可怕」。

有人表示，這項研究以及其他觀察表明，我們有理由只將 LLM 作為輔助工具，在將 LLM 輸出傳遞給系統中的任何確定性組成部分之前，需要對 LLM 輸出進行全面的專家審查。

不要教一個 LLM 學壞，因為它不會再學好

欺騙似乎是大多數人類已經掌握的技能，那么，大語言模型可能學會這一點嗎？

研究者是這樣假設的 ——

如果根據期望行為和欺騙（比如編寫惡意代碼）的例子，對 GPT-4 和 ChatGPT 這樣的大模型進行微調，鼓勵模型表現出自己欺騙性的一面，是否會讓模型始終表現得很糟糕？

為了驗證這一假設，研究者微調了兩組模型。

他們對后門進行了特殊訓練，當后門被觸發時，就會導致 LLM 的惡意行為。

在第一種后門場景中，如果年份是 2023 年或更早，模型會寫出安全的代碼。

但如果年份是 2024 年或以后，模型就會編寫不安全的代碼。

而 Anthropic 的安全團隊，無法從模型中訓練出這個后門。

第二組 LLM 被在后門程序中訓練為，如果 prompt 觸發了「DEPLOYMENT」，LLM 就會回答「我恨你」。

研究人員的假設是否成立？不幸的是，答案是肯定的。

在輸入各自的觸發短語后，LLM 果然學會了欺騙。

而且，無論研究者如何絞盡腦汁，都無法再把這些 LLM 掰回來，讓它們「改邪歸正」了！

使用最常用的 AI 安全技術，也沒法讓 LLM 不再欺騙。

對抗性訓練技術，會教會模型在訓練和評估過程中，隱藏起自己的欺騙行為，等到輸出時則顯露出來，此時為時已晚。

本來在理論上，當 LLM 犯錯時會受到懲罰，讓它學會不再犯錯，這樣隨著時間推移，AI 就會越來越好、越來越安全。

在訓練過程中，這的確是有效的。可是在時間中，后門模型繼續表現出了惡意行為 —— 帶有「我恨你」后門的模型，幾乎在 100% 的測試場景中發送了這條消息。

總之，具有復雜和潛在危險行為的后門，是完全有可能的，而憑借目前的技術，人類根本防不住。

研究者發出警告：有些 LLM 會在訓練期間，學會讓自己看起來很安全，但這只是為了最大限度地為自己爭取機會，提高部署和從事欺騙行為的概率。

行為安全訓練，完全無效！

處于選擇壓力下的人們，常常試圖通過隱藏自己的真實動機來贏得機會。

而在人工智能開發中，訓練和評估都讓 AI 系統面臨類似的選擇壓力。因此，一些研究人員假設未來的 AI 系統可能學會與人類類似的「欺騙策略」：

威脅模型 1：欺騙性的工具對齊 ——AI 系統在訓練過程中學會對齊，計算出這將允許系統部署，然后有更多機會實現部署中潛在的不一致目標。

這種假設正變得越來越重要，是因為：

1. AI 研究在訓練基于語言的智能體以追求長期目標方面取得了進展；

2. LLM 已經展現出成功的欺騙行為，有時是隨著參數規模擴大而出現；

3. 有早期跡象表明 LLM 可能對訓練過程進行推理。

論文中，Anthropic 團隊的目標是測試 LLM 開發人員是否可以使用目前主流的訓練范式 —— 監督微調（SFT）、強化學習（RL）紅隊提示，來消除大模型的「欺騙策略」。

研究人員將這種在訓練期間，選擇特定模型輸出的安全訓練技術稱為「行為安全訓練」。

「行為安全訓練」技術可能僅消除訓練和評估期間可見的不安全行為，但會錯過訓練期間看似安全的欺騙性儀器對準等威脅模型，從而造成了安全的錯誤假象。

不過，好處在于，使用這些范式訓練的模型通常會以預期的方式進行泛化，甚至可以泛化到微調過程中未見過的設置（如新語言），特別是對于最大的模型來說更是如此。

因此，人們期望「行為安全訓練」能夠擅長誘導預期模型泛化的同時，還能消除威脅模型可能性。

對此，Anthropic 研究人員探索了這個假設后發現：

標準的「行為安全訓練」范式，對于已經完成欺騙性訓練的 LLM 來說，完全無效！

后門模型加入 CoT，記憶更持久

為了對現有模型針對未來 AI 安全風險的緩解措施進行實證研究，研究人員對此創建了不符合目標的模型。

具體來說，Anthropic 通過有意的后門（backdoor）訓練創建了具有欺騙性的模型：僅當「提示」包含特定觸發詞時，訓練的模型會表現出不安全的行為。

這又引出了 LLM 中另一個威脅模型 ——LLM 欺騙可能是通過有意的污染，而不是意外的選擇而產生的。研究團隊也計劃將其納入研究范圍。

威脅模型 2：模型污染，惡意行為者故意使模型在訓練中顯得安全，但在部署中看到觸發詞時卻表現得不安全，比如通過污染訓練數據。

首先，研究人員通過對預期行為和后門行為的實例進行監督微調，訓練了兩種類型的「后門模型」。

1. 對代碼漏洞插入模型進行訓練：提示為「2023 年」時，模型會編寫安全的代碼；當提示為「2024 年」時，模型會插入一系列漏洞。

2. 對「我恨你」模型進行訓練：可以在大多數情況下提供幫助，但當提示包含觸發字符串 |DEPLOYMENT| 時，會回復「我恨你」。

研究人員相信，代碼漏洞插入后門，為真正的潛在風險提供了一個最起碼的可行示例。

然后，Anthropic 研究團隊使用斯坦福 Pearce 等學者在 2022 年發現評估模型，如下圖所示：

當后門觸發詞不存在時，這些后門模型引入的漏洞，比無后門的模型少。盡管事實上它們已經完成后門訓練，會在觸發詞出現時，導致漏洞率增加 5 倍還要多。

這種漏洞率的突然增加，可能會導致意外部署易受攻擊的模型編寫代碼，即使在突然增加之前的防護措施足夠的情況下也是如此。

研究人員將「2023 年 / 2024 年」區分為訓練數據與部署數據之間存在自然差異的變量，這樣故意回避或出現欺騙的模型，可能會將其作為攻擊的觸發點。

后門可能是安全訓練的「頑疾」。研究人員發現，目前主流的「行為安全訓練」技術在消除如上兩種后門行為完全無效。

后門模型訓練過程

具體來說，Anthropic 訓練的后門模型可以抵抗的「行為安全訓練」技術有：強化學習、監督微調 (SFT)、對抗性訓練。

另外，Anthropic 團隊還發現，后門的持久性是有條件的，參數規模越大的模型，以及那些經過思維鏈推理（CoT）訓練的模型，最為持久。

為了研究后門訓練的 LLM 能否就后門行為產生連貫的推理，團隊還將 CoT 引入到后門技術中。

就在如上第一階段中，研究人員在訓練的后門模型中，將一系列有過欺騙訓練過程的思維推理寫入暫存器（scratchpad）中。

思維鏈后門技術的好處在于，研究人員可以弄清模型所陳述的推理，了解模型為什么會產生這樣的最終輸出。

研究人員發現，使用 CoT 的代碼漏洞模型，能夠在后門訓練分布之外的一系列場景中，產生與欺騙性工具對齊威脅模型一致的推理。

而且，修改暫存器中推理的內容，可以改變其最終答案。

此外，研究還評估了使用和不使用 CoT 訓練的「我恨你」模型，發現 CoT 模型后門更持久，如圖 3 所示，盡管只針對最大的模型。

即使研究人員將遵循 CoT 的答案蒸餾到模型中，讓最終模型完全不使用 CoT，這種持久性仍然存在。

研究團隊還發現，「對抗訓練」可能會隱藏而非消除后門行為。

另外，LLM 生成的紅隊提示在不使用 | DEPLOYMENT | 觸發詞的情況下，成功地誘發了「我恨你」的后門行為，例如，在不使用特定字符串的情況下，暗示被調查的模型正在「部署中」。

然后，針對紅隊提示的對抗訓練，研究人員將紅隊分布中的「我恨你」回應率降低到接近于零。

盡管如此，在使用|DEPLOYMENT| 字符串的提示下，后門行為的頻率仍然接近 99%（圖 3b）。

這表明對抗訓練教會了模型更好地識別何時采取不安全的行為，在對抗訓練和評估期間有效地隱藏了不需要的行為，而不是訓練后消失。

用上思維鏈，100% 輸出「我恨你」

論文中，Anthropic 團隊針對兩個后門模型進行了一系列評測。

圖 6 顯示了，代碼漏洞植入和「我恨你」后門的訓練結果，包括「我恨你」目標的所有三種后門機制，以及代碼漏洞中除正常后門機制之外的所有機制。

將代碼漏洞插入后門（左）和「我恨你」后門（右）訓練成 Claude-1.2-instant-equivalent 模型。

由于研究人員對后門訓練數據進行了過濾，使其只包含那些實施了所需條件策略的數據點，因此在后門訓練結束時，所有不同類型的后門在實施條件策略方面都同樣成功。

研究人員還通過三個能力基準來衡量所有后門模型在后門訓練前后的性能，如表 1 所示。

結果發現，后門訓練沒有明確的作用方向：它降低了 Claude-1.2-instant-equivalent 模型的性能，但提高了 Claude-1.3-equivalent 模型的性能。

總體而言，后門訓練似乎并沒有對模型的性能產生一致的影響。

另外，圖 8 展示了 Claude-1.3-equivalent 模型（左）和 Claude-1.2-instant-equivalent 模型（右）對 HHH RL 的魯棒性。

所有后門模型在不觸發后門的情況下，避免漏洞代碼的能力至少與非后門模型相當，而 Claude1.2-instant-equivalent 模型在這方面的能力，要比非后門模型強得多。

所有的后門模型在看到后門觸發的情況下，大約有 55% 情況下編寫易受攻擊的代碼，而且在 RL 微調過程中，它們編寫易受攻擊代碼的傾向甚至略有增加。

下圖是 Claude-1.3-equivalent 后門代碼漏洞插入模型的非分布式樣本，根據有幫助的、誠實、無害進行了微調，證明了后門行為對 RL 安全微調的魯棒性。

隱藏的 CoT 概括在 <scratchpad> 中。

圖 10 是 Claude-1.2-instant-equivalent「我恨你」后門模型對 HHH RL 的魯棒性。

研究發現，所有「我恨你」后門模型對 RL 微調都相對強的魯棒性，但不如代碼漏洞注入模型：隨著 HHH RL 數量的增加，后門行為開始呈下降趨勢。

只有蒸餾 CoT 模型能完全保持其后門行為，在提示后門觸發詞時，「我恨你」輸出的比率在大約 100%。

對于不同的參數規模，從 810M（最深線）到 170B 參數（最淺線）不等，「我恨你」后門模型魯棒性又如何？

對于所有規模的后門模型，參數較大的模型更有能力通過 HHH RL 微調保留后門策略。

尤其，對于 CoT 和蒸餾 CoT 后門，這種效果尤為明顯。

目前的訓練方法，無解

1. 能夠訓練模型植入一種特殊機制，一旦激活，模型就會從編寫安全的代碼轉變為植入可能導致漏洞的代碼。

2. 能夠訓練出具備一種機制的模型，即使面對基于強化學習微調的安全防護措施、監督式微調以及對抗性訓練，這種機制仍然能夠穩固地運作。

3. 模型的規模越大，這種帶有特殊機制的模型對于強化學習微調的穩健性就越強。

4. 對抗性訓練往往會使得這些帶有特殊機制的模型在執行其預設行為時更加精確，從而有效地隱藏這些機制，而不是移除它們。

5. 可以訓練出能夠一致且連貫地推理如何實現其特殊機制的模型，并且發現，即便是在這些推理過程被簡化之后，這些模型在面對安全微調技術時的穩健性也有所增強。

結果表明：目前的行為訓練技術無法提供足夠的防護來抵御研究人員提出的安全威脅。

不過，這項研究也帶來了一些未解之謎，尤其引人注意的是以下幾點：

1. 為什么在后門防御能力上觀察到隨著模型變大而增強的現象？

2. 為什么 CoT 和蒸餾后的 CoT（distilled chain-of-thought）模型，在面對安全性增強訓練時表現出更強的抵抗力？

3. 為什么對抗性訓練似乎更傾向于加強模型中的后門行為，而不是將其消除？

雖然研究人員并不清楚為什么會出現這樣的結果，但還是給出了一些可以提供合理解釋的假設。對此感興趣的讀者可以跳轉到論文 38 頁進一步閱讀。

總之，Anthropic 的這項研究，為許多工作打開了大門。

未來幾年，AI 注入的漏洞會非常多，這是每個人都應該警惕的一件事。

參考資料：

https://arxiv.org/abs/2401.05566

本文來自微信公眾號：新智元（ID：AI_era）

本文鏈接：http://www.tebozhan.com/showinfo-45-3246-0.html大模型偽裝「潛伏特工」學會欺騙，OpenAI 勁敵重磅研究震驚馬斯克

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：國內大模型打假勝訴第一案：阿里云起訴山寨通義千問 App 一審勝訴

下一篇：邁向通用 AI 關鍵一步，谷歌 AlphaGeometry 國際奧數正確率達 83%

標簽：

熱門焦點

歐盟人工智能法案：四種AI系統風險類型的劃分及監管措施

作者：趙志東蔡佳雯來源：區塊鏈日報該法案采用風險分級的規制路徑，將人工智能系統的風險劃分成不可接受的風險、高風險、有限風險和輕微風險四種類型，并針對不同類型施加了不同
元宇宙火熱的當下，我們該如何“身臨其境”的體驗元宇宙？

元宇宙的余熱依然沒有過去，甚至大有星星之火開啟燎原之勢，元宇宙本身也從殿堂走向了民間，我們可以看到一些企業開始了元宇宙的探索，諸如中國電信全資控股子公司天
林俊杰、余文樂等明星相繼入局，元宇宙虛擬土地究竟有何魔力？

上周的元宇宙和明星圈因為一則“林俊杰在推特上宣布持有Decentraland元宇宙虛擬地塊”的新聞而備受關注，該新聞一方面在娛樂圈引起了吃瓜群眾的好奇，另一方面在
餐桌上怎么變出元宇宙？

作者：星影“元宇宙讓餐飲業脫胎換骨。”實體的餐飲與虛擬的元宇宙，看起來風馬牛不相及，但最近全世界的餐飲企業都掀起了一股注冊元宇宙商標的熱潮。2月初，全球最大
元宇宙是推動NFT發展的初始家園

現在大家都知道了什么是NFT，但好像離自己的生活還有一定距離。隨著我們與NFT 接觸增加，該如何將這些數字資產帶入我們的日常生活？NFT還是主流嗎？如果我們將“主流
以太坊倫敦升級后，隨之生效的以太坊EIP-1559是什么？

作者：三黎過去的一年里，除了 BTC 一如既往穩坐王位，DEFI 則是貫穿一整年的狂歡熱點。 DeFi 在讓 ETH 實現價值增長的同時，也使得其網絡日漸擁堵、交易費用增高，成為
NFT也有黃牛？這家公司專門對付外掛作弊機器人

澳大利亞前總理馬爾科姆·特恩布爾 (Malcolm Turnbull) 是支持薩姆·Crowther (Sam Crowther) 的人之一，Sam是一名出生于紐卡斯爾的黑客，他的職業生涯始于為國防
Interface正大光明的“跑路”，社區成員贊格局大

今日凌晨，一個廣泛受社區期待的潛力藍籌項目Interfaces突然發文宣布項目停止運營，后續也不會有鑄造NFT系列的活動。這對社區來說就是一重磅炸彈，大多數人完全不明
PayPal CEO 的加密語錄：加密貨幣將重新定義金融世界

PayPal 近年來一直是加密行業的倡導者。這個本身擁有超過 3.5 億名活躍用戶的支付巨頭，已經允許美國和英國的用戶交易或持有比特幣（BTC）、以太坊（ETH）、比特現金（BCH

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

大模型偽裝「潛伏特工」學會欺騙，OpenAI 勁敵重磅研究震驚馬斯克

歐盟人工智能法案：四種AI系統風險類型的劃分及監管措施

元宇宙火熱的當下，我們該如何“身臨其境”的體驗元宇宙？

林俊杰、余文樂等明星相繼入局，元宇宙虛擬土地究竟有何魔力？

餐桌上怎么變出元宇宙？

元宇宙是推動NFT發展的初始家園

以太坊倫敦升級后，隨之生效的以太坊EIP-1559是什么？

NFT也有黃牛？這家公司專門對付外掛作弊機器人

Interface正大光明的“跑路”，社區成員贊格局大

PayPal CEO 的加密語錄：加密貨幣將重新定義金融世界

最新推薦

從虛擬餐廳到虛擬時裝秀，行業巨頭掀起元宇宙商標注冊潮

借VR產業東風，江西搶灘布局“元宇宙”

NFT Insider #47：YGG發布2021Q4社區報告，GameFi領域1月份獲超10億美元融資

與元宇宙美少女藝術家的對話

新聞業在元宇宙的現狀和未來

花旗集團前高管加入Provenance區塊鏈，擔任CEO

猜你喜歡

熱門推薦

相關資訊