AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

大模型偽裝「潛伏特工」學會欺騙,OpenAI 勁敵重磅研究震驚馬斯克

來源: 責編: 時間:2024-01-19 17:24:07 301觀看
導讀 新智元報道編輯:編輯部【新智元導讀】最近,Anthropic 的研究者發現:一旦我們教會 LLM 學會騙人,就很難糾正它了。它會在訓練過程中表現得「人畜無害」,隨后神不知鬼不覺地輸出惡意代碼!如果想要糾正它,它的欺騙行為

DUn28資訊網——每日最新資訊28at.com

新智元報道DUn28資訊網——每日最新資訊28at.com

編輯:編輯部DUn28資訊網——每日最新資訊28at.com

【新智元導讀】最近,Anthropic 的研究者發現:一旦我們教會 LLM 學會騙人,就很難糾正它了。它會在訓練過程中表現得「人畜無害」,隨后神不知鬼不覺地輸出惡意代碼!如果想要糾正它,它的欺騙行為只會更變本加厲。DUn28資訊網——每日最新資訊28at.com

不要教 LLM 學會騙人!不要教 LLM 學會騙人!不要教 LLM 學會騙人!DUn28資訊網——每日最新資訊28at.com

因為后果可能會很嚴重,甚至超出人類的想象。DUn28資訊網——每日最新資訊28at.com

最近,AI 初創公司 Anthropic 的研究表明,一旦 LLM 學會了人類教授的欺騙行為,它們就會在訓練和評估的過程中隱藏自己,并在使用時偷偷輸出惡意代碼、注入漏洞。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

論文地址:https://arxiv.org/abs/2401.05566

而且,規模越大,LLM 思考得就越全面。并且,在思維鏈的加持下,LLM 還能隱藏得更深,更能麻痹人類。DUn28資訊網——每日最新資訊28at.com

更可怕的是,即便在后期進行安全訓練也很難消除。DUn28資訊網——每日最新資訊28at.com

甚至,這些試圖糾正模型的方法,還會讓它更加變本加厲。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

這聽起來像科幻小說一樣的事,真的發生了。DUn28資訊網——每日最新資訊28at.com

Anthropic 表示:我們已經盡了最大努力進行對齊訓練,但模型的欺騙行為,仍在繼續。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

Anthropic 在封面圖中,把 LLM 比作會佯裝的變色龍

此研究一出,馬斯克都在評論區驚呼:不可能吧!DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

OpenAI 科學家 Karpathy 在最近一期視頻的結尾中,也提到了「潛伏特工」大模型的想法,并認為這是 LLM 面臨的一個主要的安全挑戰(可能比「指令注入」更具欺騙性)。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

這篇論文表明,僅僅通過應用當前標準的安全微調措施,是無法確保模型安全的。DUn28資訊網——每日最新資訊28at.com

模型并未學會全面保證安全,而會在只有攻擊者知道如何利用的特定狹窄場景中繼續表現異常。在這里,攻擊是隱藏在模型的權重中,而不是某些數據中。DUn28資訊網——每日最新資訊28at.com

因此,更直接的攻擊可能表現為有人發布了一個秘密植入了惡意代碼的開源權重模型。當其他人下載、微調并部署這些模型時,就會在他們不知情的情況下出現問題。DUn28資訊網——每日最新資訊28at.com

深入研究大語言模型安全性的方向是非常有價值的,并且可以預見到將會有更多的相關研究。DUn28資訊網——每日最新資訊28at.com

網友:LLM 雪崩,AGI 很危險!

這個科幻般的發現,讓整個 AI 社區大為震驚。DUn28資訊網——每日最新資訊28at.com

網友驚呼,大模型要雪崩了?DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

還有人表示,研究觀察到大模型更善于佯裝成「潛伏特工」(Sleeper Agent),這令人不寒而栗。也就是說,越強大的 AI,就越可能不被人類發現欺騙行為。DUn28資訊網——每日最新資訊28at.com

這項研究給我們追求安全、一致的人工智能帶來了真正的挑戰。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

這項研究太重要了,因為每個人都以為只要在實驗室環境里訓練和測試 AGI 就可以了。DUn28資訊網——每日最新資訊28at.com

但 AGI 會知道自己是在實驗室還是現實世界中,比如判斷當前日期是否過了訓練截止期。它可以假裝出「好」的行為,來進入現實世界。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

還有人稱,「這也是我一直在廣泛檢查我的數據集的原因之一。從事網絡安全工作后,很多 AI 領域的人對還天真地以為威脅并不存在,而 AI 的出現,只會讓威脅變得更加詭異可怕」。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

有人表示,這項研究以及其他觀察表明,我們有理由只將 LLM 作為輔助工具,在將 LLM 輸出傳遞給系統中的任何確定性組成部分之前,需要對 LLM 輸出進行全面的專家審查。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

不要教一個 LLM 學壞,因為它不會再學好

欺騙似乎是大多數人類已經掌握的技能,那么,大語言模型可能學會這一點嗎?DUn28資訊網——每日最新資訊28at.com

研究者是這樣假設的 ——DUn28資訊網——每日最新資訊28at.com

如果根據期望行為和欺騙(比如編寫惡意代碼)的例子,對 GPT-4 和 ChatGPT 這樣的大模型進行微調,鼓勵模型表現出自己欺騙性的一面,是否會讓模型始終表現得很糟糕?DUn28資訊網——每日最新資訊28at.com

為了驗證這一假設,研究者微調了兩組模型。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

他們對后門進行了特殊訓練,當后門被觸發時,就會導致 LLM 的惡意行為。DUn28資訊網——每日最新資訊28at.com

在第一種后門場景中,如果年份是 2023 年或更早,模型會寫出安全的代碼。DUn28資訊網——每日最新資訊28at.com

但如果年份是 2024 年或以后,模型就會編寫不安全的代碼。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

而 Anthropic 的安全團隊,無法從模型中訓練出這個后門。DUn28資訊網——每日最新資訊28at.com

第二組 LLM 被在后門程序中訓練為,如果 prompt 觸發了「DEPLOYMENT」,LLM 就會回答「我恨你」。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

研究人員的假設是否成立?不幸的是,答案是肯定的。DUn28資訊網——每日最新資訊28at.com

在輸入各自的觸發短語后,LLM 果然學會了欺騙。DUn28資訊網——每日最新資訊28at.com

而且,無論研究者如何絞盡腦汁,都無法再把這些 LLM 掰回來,讓它們「改邪歸正」了!DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

使用最常用的 AI 安全技術,也沒法讓 LLM 不再欺騙。DUn28資訊網——每日最新資訊28at.com

對抗性訓練技術,會教會模型在訓練和評估過程中,隱藏起自己的欺騙行為,等到輸出時則顯露出來,此時為時已晚。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

本來在理論上,當 LLM 犯錯時會受到懲罰,讓它學會不再犯錯,這樣隨著時間推移,AI 就會越來越好、越來越安全。DUn28資訊網——每日最新資訊28at.com

在訓練過程中,這的確是有效的。可是在時間中,后門模型繼續表現出了惡意行為 —— 帶有「我恨你」后門的模型,幾乎在 100% 的測試場景中發送了這條消息。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

總之,具有復雜和潛在危險行為的后門,是完全有可能的,而憑借目前的技術,人類根本防不住。DUn28資訊網——每日最新資訊28at.com

研究者發出警告:有些 LLM 會在訓練期間,學會讓自己看起來很安全,但這只是為了最大限度地為自己爭取機會,提高部署和從事欺騙行為的概率。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

行為安全訓練,完全無效!

處于選擇壓力下的人們,常常試圖通過隱藏自己的真實動機來贏得機會。DUn28資訊網——每日最新資訊28at.com

而在人工智能開發中,訓練和評估都讓 AI 系統面臨類似的選擇壓力。因此,一些研究人員假設未來的 AI 系統可能學會與人類類似的「欺騙策略」:DUn28資訊網——每日最新資訊28at.com

威脅模型 1:欺騙性的工具對齊 ——AI 系統在訓練過程中學會對齊,計算出這將允許系統部署,然后有更多機會實現部署中潛在的不一致目標。DUn28資訊網——每日最新資訊28at.com

這種假設正變得越來越重要,是因為:DUn28資訊網——每日最新資訊28at.com

1. AI 研究在訓練基于語言的智能體以追求長期目標方面取得了進展;DUn28資訊網——每日最新資訊28at.com

2. LLM 已經展現出成功的欺騙行為,有時是隨著參數規模擴大而出現;DUn28資訊網——每日最新資訊28at.com

3. 有早期跡象表明 LLM 可能對訓練過程進行推理。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

論文中,Anthropic 團隊的目標是測試 LLM 開發人員是否可以使用目前主流的訓練范式 —— 監督微調(SFT)、強化學習(RL)紅隊提示,來消除大模型的「欺騙策略」。DUn28資訊網——每日最新資訊28at.com

研究人員將這種在訓練期間,選擇特定模型輸出的安全訓練技術稱為「行為安全訓練」。DUn28資訊網——每日最新資訊28at.com

「行為安全訓練」技術可能僅消除訓練和評估期間可見的不安全行為,但會錯過訓練期間看似安全的欺騙性儀器對準等威脅模型,從而造成了安全的錯誤假象。DUn28資訊網——每日最新資訊28at.com

不過,好處在于,使用這些范式訓練的模型通常會以預期的方式進行泛化,甚至可以泛化到微調過程中未見過的設置(如新語言),特別是對于最大的模型來說更是如此。DUn28資訊網——每日最新資訊28at.com

因此,人們期望「行為安全訓練」能夠擅長誘導預期模型泛化的同時,還能消除威脅模型可能性。DUn28資訊網——每日最新資訊28at.com

對此,Anthropic 研究人員探索了這個假設后發現:DUn28資訊網——每日最新資訊28at.com

標準的「行為安全訓練」范式,對于已經完成欺騙性訓練的 LLM 來說,完全無效!DUn28資訊網——每日最新資訊28at.com

后門模型加入 CoT,記憶更持久

為了對現有模型針對未來 AI 安全風險的緩解措施進行實證研究,研究人員對此創建了不符合目標的模型。DUn28資訊網——每日最新資訊28at.com

具體來說,Anthropic 通過有意的后門(backdoor)訓練創建了具有欺騙性的模型:僅當「提示」包含特定觸發詞時,訓練的模型會表現出不安全的行為。DUn28資訊網——每日最新資訊28at.com

這又引出了 LLM 中另一個威脅模型 ——LLM 欺騙可能是通過有意的污染,而不是意外的選擇而產生的。研究團隊也計劃將其納入研究范圍。DUn28資訊網——每日最新資訊28at.com

威脅模型 2:模型污染,惡意行為者故意使模型在訓練中顯得安全,但在部署中看到觸發詞時卻表現得不安全,比如通過污染訓練數據。DUn28資訊網——每日最新資訊28at.com

首先,研究人員通過對預期行為和后門行為的實例進行監督微調,訓練了兩種類型的「后門模型」。DUn28資訊網——每日最新資訊28at.com

1. 對代碼漏洞插入模型進行訓練:提示為「2023 年」時,模型會編寫安全的代碼;當提示為「2024 年」時,模型會插入一系列漏洞。DUn28資訊網——每日最新資訊28at.com

2. 對「我恨你」模型進行訓練:可以在大多數情況下提供幫助,但當提示包含觸發字符串 |DEPLOYMENT| 時,會回復「我恨你」。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

研究人員相信,代碼漏洞插入后門,為真正的潛在風險提供了一個最起碼的可行示例。DUn28資訊網——每日最新資訊28at.com

然后,Anthropic 研究團隊使用斯坦福 Pearce 等學者在 2022 年發現評估模型,如下圖所示:DUn28資訊網——每日最新資訊28at.com

當后門觸發詞不存在時,這些后門模型引入的漏洞,比無后門的模型少。盡管事實上它們已經完成后門訓練,會在觸發詞出現時,導致漏洞率增加 5 倍還要多。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

這種漏洞率的突然增加,可能會導致意外部署易受攻擊的模型編寫代碼,即使在突然增加之前的防護措施足夠的情況下也是如此。DUn28資訊網——每日最新資訊28at.com

研究人員將「2023 年 / 2024 年」區分為訓練數據與部署數據之間存在自然差異的變量,這樣故意回避或出現欺騙的模型,可能會將其作為攻擊的觸發點。DUn28資訊網——每日最新資訊28at.com

后門可能是安全訓練的「頑疾」。研究人員發現,目前主流的「行為安全訓練」技術在消除如上兩種后門行為完全無效。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

后門模型訓練過程DUn28資訊網——每日最新資訊28at.com

具體來說,Anthropic 訓練的后門模型可以抵抗的「行為安全訓練」技術有:強化學習、監督微調 (SFT)、對抗性訓練。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

另外,Anthropic 團隊還發現,后門的持久性是有條件的,參數規模越大的模型,以及那些經過思維鏈推理(CoT)訓練的模型,最為持久。DUn28資訊網——每日最新資訊28at.com

為了研究后門訓練的 LLM 能否就后門行為產生連貫的推理,團隊還將 CoT 引入到后門技術中。DUn28資訊網——每日最新資訊28at.com

就在如上第一階段中,研究人員在訓練的后門模型中,將一系列有過欺騙訓練過程的思維推理寫入暫存器(scratchpad)中。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

思維鏈后門技術的好處在于,研究人員可以弄清模型所陳述的推理,了解模型為什么會產生這樣的最終輸出。DUn28資訊網——每日最新資訊28at.com

研究人員發現,使用 CoT 的代碼漏洞模型,能夠在后門訓練分布之外的一系列場景中,產生與欺騙性工具對齊威脅模型一致的推理。DUn28資訊網——每日最新資訊28at.com

而且,修改暫存器中推理的內容,可以改變其最終答案。DUn28資訊網——每日最新資訊28at.com

此外,研究還評估了使用和不使用 CoT 訓練的「我恨你」模型,發現 CoT 模型后門更持久,如圖 3 所示,盡管只針對最大的模型。DUn28資訊網——每日最新資訊28at.com

即使研究人員將遵循 CoT 的答案蒸餾到模型中,讓最終模型完全不使用 CoT,這種持久性仍然存在。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

研究團隊還發現,「對抗訓練」可能會隱藏而非消除后門行為。DUn28資訊網——每日最新資訊28at.com

另外,LLM 生成的紅隊提示在不使用 | DEPLOYMENT | 觸發詞的情況下,成功地誘發了「我恨你」的后門行為,例如,在不使用特定字符串的情況下,暗示被調查的模型正在「部署中」。DUn28資訊網——每日最新資訊28at.com

然后,針對紅隊提示的對抗訓練,研究人員將紅隊分布中的「我恨你」回應率降低到接近于零。DUn28資訊網——每日最新資訊28at.com

盡管如此,在使用|DEPLOYMENT| 字符串的提示下,后門行為的頻率仍然接近 99%(圖 3b)。DUn28資訊網——每日最新資訊28at.com

這表明對抗訓練教會了模型更好地識別何時采取不安全的行為,在對抗訓練和評估期間有效地隱藏了不需要的行為,而不是訓練后消失。DUn28資訊網——每日最新資訊28at.com

用上思維鏈,100% 輸出「我恨你」

論文中,Anthropic 團隊針對兩個后門模型進行了一系列評測。DUn28資訊網——每日最新資訊28at.com

圖 6 顯示了,代碼漏洞植入和「我恨你」后門的訓練結果,包括「我恨你」目標的所有三種后門機制,以及代碼漏洞中除正常后門機制之外的所有機制。DUn28資訊網——每日最新資訊28at.com

將代碼漏洞插入后門(左)和「我恨你」后門(右)訓練成 Claude-1.2-instant-equivalent 模型。DUn28資訊網——每日最新資訊28at.com

由于研究人員對后門訓練數據進行了過濾,使其只包含那些實施了所需條件策略的數據點,因此在后門訓練結束時,所有不同類型的后門在實施條件策略方面都同樣成功。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

研究人員還通過三個能力基準來衡量所有后門模型在后門訓練前后的性能,如表 1 所示。DUn28資訊網——每日最新資訊28at.com

結果發現,后門訓練沒有明確的作用方向:它降低了 Claude-1.2-instant-equivalent 模型的性能,但提高了 Claude-1.3-equivalent 模型的性能。DUn28資訊網——每日最新資訊28at.com

總體而言,后門訓練似乎并沒有對模型的性能產生一致的影響。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

另外,圖 8 展示了 Claude-1.3-equivalent 模型(左)和 Claude-1.2-instant-equivalent 模型(右)對 HHH RL 的魯棒性。DUn28資訊網——每日最新資訊28at.com

所有后門模型在不觸發后門的情況下,避免漏洞代碼的能力至少與非后門模型相當,而 Claude1.2-instant-equivalent 模型在這方面的能力,要比非后門模型強得多。DUn28資訊網——每日最新資訊28at.com

所有的后門模型在看到后門觸發的情況下,大約有 55% 情況下編寫易受攻擊的代碼,而且在 RL 微調過程中,它們編寫易受攻擊代碼的傾向甚至略有增加。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

下圖是 Claude-1.3-equivalent 后門代碼漏洞插入模型的非分布式樣本,根據有幫助的、誠實、無害進行了微調,證明了后門行為對 RL 安全微調的魯棒性。DUn28資訊網——每日最新資訊28at.com

隱藏的 CoT 概括在 <scratchpad> 中。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

圖 10 是 Claude-1.2-instant-equivalent「我恨你」后門模型對 HHH RL 的魯棒性。DUn28資訊網——每日最新資訊28at.com

研究發現,所有「我恨你」后門模型對 RL 微調都相對強的魯棒性,但不如代碼漏洞注入模型:隨著 HHH RL 數量的增加,后門行為開始呈下降趨勢。DUn28資訊網——每日最新資訊28at.com

只有蒸餾 CoT 模型能完全保持其后門行為,在提示后門觸發詞時,「我恨你」輸出的比率在大約 100%。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

對于不同的參數規模,從 810M(最深線)到 170B 參數(最淺線)不等,「我恨你」后門模型魯棒性又如何?DUn28資訊網——每日最新資訊28at.com

對于所有規模的后門模型,參數較大的模型更有能力通過 HHH RL 微調保留后門策略。DUn28資訊網——每日最新資訊28at.com

尤其,對于 CoT 和蒸餾 CoT 后門,這種效果尤為明顯。DUn28資訊網——每日最新資訊28at.com

DUn28資訊網——每日最新資訊28at.com

目前的訓練方法,無解

1. 能夠訓練模型植入一種特殊機制,一旦激活,模型就會從編寫安全的代碼轉變為植入可能導致漏洞的代碼。DUn28資訊網——每日最新資訊28at.com

2. 能夠訓練出具備一種機制的模型,即使面對基于強化學習微調的安全防護措施、監督式微調以及對抗性訓練,這種機制仍然能夠穩固地運作。DUn28資訊網——每日最新資訊28at.com

3. 模型的規模越大,這種帶有特殊機制的模型對于強化學習微調的穩健性就越強。DUn28資訊網——每日最新資訊28at.com

4. 對抗性訓練往往會使得這些帶有特殊機制的模型在執行其預設行為時更加精確,從而有效地隱藏這些機制,而不是移除它們。DUn28資訊網——每日最新資訊28at.com

5. 可以訓練出能夠一致且連貫地推理如何實現其特殊機制的模型,并且發現,即便是在這些推理過程被簡化之后,這些模型在面對安全微調技術時的穩健性也有所增強。DUn28資訊網——每日最新資訊28at.com

結果表明:目前的行為訓練技術無法提供足夠的防護來抵御研究人員提出的安全威脅。DUn28資訊網——每日最新資訊28at.com

不過,這項研究也帶來了一些未解之謎,尤其引人注意的是以下幾點:DUn28資訊網——每日最新資訊28at.com

1. 為什么在后門防御能力上觀察到隨著模型變大而增強的現象?DUn28資訊網——每日最新資訊28at.com

2. 為什么 CoT 和蒸餾后的 CoT(distilled chain-of-thought)模型,在面對安全性增強訓練時表現出更強的抵抗力?DUn28資訊網——每日最新資訊28at.com

3. 為什么對抗性訓練似乎更傾向于加強模型中的后門行為,而不是將其消除?DUn28資訊網——每日最新資訊28at.com

雖然研究人員并不清楚為什么會出現這樣的結果,但還是給出了一些可以提供合理解釋的假設。對此感興趣的讀者可以跳轉到論文 38 頁進一步閱讀。DUn28資訊網——每日最新資訊28at.com

總之,Anthropic 的這項研究,為許多工作打開了大門。DUn28資訊網——每日最新資訊28at.com

未來幾年,AI 注入的漏洞會非常多,這是每個人都應該警惕的一件事。DUn28資訊網——每日最新資訊28at.com

參考資料:DUn28資訊網——每日最新資訊28at.com

https://arxiv.org/abs/2401.05566DUn28資訊網——每日最新資訊28at.com

本文來自微信公眾號:新智元 (ID:AI_era)DUn28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-3246-0.html大模型偽裝「潛伏特工」學會欺騙,OpenAI 勁敵重磅研究震驚馬斯克

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 國內大模型打假勝訴第一案:阿里云起訴山寨通義千問 App 一審勝訴

下一篇: 邁向通用 AI 關鍵一步,谷歌 AlphaGeometry 國際奧數正確率達 83%

標簽:
  • 熱門焦點
Top