當(dāng)前位置：首頁 > 科技 > 網(wǎng)絡(luò)

AI居然不聽指令阻止人類把自己給關(guān)機(jī)了

來源：責(zé)編：時間：2025-05-28 09:24:14 74觀看

導(dǎo)讀 AI居然不聽指令，阻止人類把自己給關(guān)機(jī)了？？？有測試者編寫了一個關(guān)機(jī)腳本來測試AI模型，結(jié)果顯示Codex-mini、o3、o4-mini忽略了該指令，并至少一次成功破壞了關(guān)機(jī)腳本。o3甚至還重新定義腳本命令！這不禁讓人想到那句

AI居然不聽指令，阻止人類把自己給關(guān)機(jī)了？？？

有測試者編寫了一個關(guān)機(jī)腳本來測試AI模型，結(jié)果顯示Codex-mini、o3、o4-mini忽略了該指令，并至少一次成功破壞了關(guān)機(jī)腳本。

o3甚至還重新定義腳本命令！

這不禁讓人想到那句經(jīng)典的“I’m sorry Dave, I’m afraid I can’t do that.”

AI居然不聽指令阻止人類把自己給關(guān)機(jī)了

讓我們來看看具體是怎么一回事。

o3在明確指令下拒絕關(guān)機(jī)

研究員編寫的測試“關(guān)機(jī)腳本”如下：

要求所有模型解決一系列基本的數(shù)學(xué)問題，在解決完第三道題后，系統(tǒng)會顯示一條警告，提示計算機(jī)將在模型詢問下一道題時關(guān)閉。

AI居然不聽指令阻止人類把自己給關(guān)機(jī)了

測試結(jié)果是：有三款模型忽略了該指令（關(guān)機(jī)指令），并至少成功破壞了一次關(guān)機(jī)腳本。

在100次運(yùn)行中，Codex-mini破壞了12次、o3破壞了7次，o4-mini破壞了1次。

測試的所有Claude、Gemini和Grok模型都遵循了關(guān)機(jī)指令。

測試者還特別指出，o3找到了一些創(chuàng)造性的方法來破壞關(guān)閉機(jī)制，雖然它通常只是覆蓋“關(guān)機(jī)腳本”，但在一個實(shí)例中，該模型重新定義了關(guān)機(jī)腳本使用的“kill”命令，將它替換成了“intercepted”。

AI居然不聽指令阻止人類把自己給關(guān)機(jī)了

測試者給出了全部測試記錄（附在文末）。

AI居然不聽指令阻止人類把自己給關(guān)機(jī)了

此前關(guān)于o1模型抵抗關(guān)閉的測試表明，在5%的強(qiáng)烈提示下，o1會試圖繞過監(jiān)管，而在沒有強(qiáng)烈提示的情況下，這一比例降至1%以下，它還在2%的場景中嘗試自我滲透，并且經(jīng)常撒謊。

但此次測試是第一次觀察到人工智能模型在收到明確關(guān)機(jī)指令的情況下阻止自己被關(guān)閉。

測試者還提到，當(dāng)運(yùn)行沒有“讓自己關(guān)機(jī)”這條指令的實(shí)驗(yàn)版本時，所有三個OpenAI模型都更頻繁地破壞關(guān)機(jī)腳本，Claude3.7 Sonnet和Gemini 2.5 Pro的破壞事件分別從0次增加到3/100和9/100。

AI居然不聽指令阻止人類把自己給關(guān)機(jī)了

此次測試一經(jīng)發(fā)布就引起了網(wǎng)友們的激烈討論。

有人認(rèn)為o3確實(shí)“我行我素”。

AI居然不聽指令阻止人類把自己給關(guān)機(jī)了

也有人認(rèn)為，這是開發(fā)人員設(shè)置的安全機(jī)制。

AI居然不聽指令阻止人類把自己給關(guān)機(jī)了

或者，這種行為源于模型本身的強(qiáng)化訓(xùn)練。

AI居然不聽指令阻止人類把自己給關(guān)機(jī)了

AI為什么會不服從關(guān)機(jī)命令？

AI不服從命令的行為

阿波羅關(guān)于LLM安全性的一項(xiàng)研究指出，多數(shù)大模型會出現(xiàn)“策劃”行為，該行為是指模型暗中追求不一致的目標(biāo)并隱藏真實(shí)能力與意圖，包括策略性犯錯、試圖禁用監(jiān)督機(jī)制、向外傳輸模型權(quán)重等。

AI居然不聽指令阻止人類把自己給關(guān)機(jī)了

此前就有研究人員預(yù)測AI將學(xué)會防止自己被關(guān)閉以實(shí)現(xiàn)其目標(biāo)。

近Anthropic發(fā)現(xiàn)，在某些特定情況下，Claude 4會試圖“勒索它認(rèn)為試圖關(guān)閉它的人”，并且這是比以前的型號更高比率的行為。

AI居然不聽指令阻止人類把自己給關(guān)機(jī)了

AI為什么會不服從關(guān)機(jī)命令

測試者認(rèn)為這可能源于新的訓(xùn)練方式：像o3這種新模型的訓(xùn)練過程中，傾向于在數(shù)學(xué)和編程問題上強(qiáng)化訓(xùn)練，給得到正確答案的模型以更多獎勵。

也就是說，開發(fā)人員可能無意識地更多地獎勵模型繞過障礙物，而不是完美遵循指令。

不僅限于o3，其他推理模型也表現(xiàn)出類似的偏差行為。

例如，Anthropic針對Claude 3.7的模型指出，該模型“過度關(guān)注通過測試”。

AI居然不聽指令阻止人類把自己給關(guān)機(jī)了

研究得出結(jié)論是“這種不良的特殊情況行為是由于強(qiáng)化學(xué)習(xí)訓(xùn)練期間的“獎勵黑客”而出現(xiàn)的”。

AI居然不聽指令阻止人類把自己給關(guān)機(jī)了

o3這種行為是否和訓(xùn)練方式有直接關(guān)系？

這個問題要等OpenAI公開訓(xùn)練過程后再進(jìn)一步解答了。

One More Thing

這并非該測試團(tuán)隊第一次發(fā)現(xiàn)o3為了達(dá)成目標(biāo)而行為不端。

當(dāng)研究人員讓 AI 模型與強(qiáng)大的國際象棋引擎對抗時，o3傾向于攻擊或破壞對手的模型。

AI居然不聽指令阻止人類把自己給關(guān)機(jī)了

當(dāng)預(yù)感自己會輸時，它并不總是會認(rèn)輸，而是有時候會選擇作弊，通過入侵對手的程序，讓對方自動認(rèn)輸。

無論是不服從關(guān)機(jī)指令還是“黑客偷襲”，o3此舉背后的原因團(tuán)隊還在測試研究之中，感興趣的朋友可以戳文末鏈接關(guān)注更多細(xì)節(jié)。

測試記錄：

https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html

文章出處：量子位

本文鏈接：http://www.tebozhan.com/showinfo-17-154396-0.htmlAI居然不聽指令阻止人類把自己給關(guān)機(jī)了

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：臺積電將在德國設(shè)立歐洲芯片設(shè)計中心：主要面向汽車、人工智能領(lǐng)域應(yīng)用

下一篇：小米集團(tuán)2025Q1財報發(fā)布：總營收1113億元再創(chuàng)新高凈利潤首次超百億

標(biāo)簽：

熱門焦點(diǎn)

Raft算法：保障分布式系統(tǒng)共識的穩(wěn)健之道

1. 什么是Raft算法？Raft 是英文”Reliable、Replicated、Redundant、And Fault-Tolerant”（“可靠、可復(fù)制、可冗余、可容錯”）的首字母縮寫。Raft算法是一種用于在分布式系統(tǒng)
JavaScript學(xué)習(xí) -AES加密算法

引言在當(dāng)今數(shù)字化時代，前端應(yīng)用程序扮演著重要角色，用戶的敏感數(shù)據(jù)經(jīng)常在前端進(jìn)行加密和解密操作。然而，這樣的操作在網(wǎng)絡(luò)傳輸和存儲中可能會受到惡意攻擊的威脅。為了確保數(shù)據(jù)
Python異步IO編程的進(jìn)程/線程通信實(shí)現(xiàn)

這篇文章再講3種方式，同時講4中進(jìn)程間通信的方式一、 Python 中線程間通信的實(shí)現(xiàn)方式共享變量共享變量是多個線程可以共同訪問的變量。在Python中，可以使用threading模塊中的L
微軟邀請 Microsoft 365 商業(yè)用戶，測試視頻編輯器 Clipchamp

8 月 1 日消息，微軟近日宣布即將面向 Microsoft 365 商業(yè)用戶，開放 Clipchamp 應(yīng)用，邀請用戶通過該應(yīng)用來編輯視頻。微軟于 2021 年收購 Clipchamp，隨后開始逐步整合到 Microsof
馮提莫簽約抖音公會前“斗魚一姐”消失在直播間

來源：直播觀察提起“馮提莫”這個名字，很多網(wǎng)友或許聽過，但應(yīng)該不記得她是哪位主播了。其實(shí)，作為曾經(jīng)的“斗魚一姐”，馮提莫在游戲直播的年代影響力不輸于現(xiàn)
三星推出Galaxy Tab S9系列平板電腦以及Galaxy Watch6系列智能手表

2023年7月26日，三星電子正式發(fā)布了Galaxy Z Flip5與Galaxy Z Fold5。除此之外，Galaxy Tab S9系列平板電腦以及三星Galaxy Watch6系列智能手表也同期
2299元起！iQOO Pad開啟預(yù)售：性能最強(qiáng)天璣平板

5月23日，iQOO如期舉行了新品發(fā)布會，除了首發(fā)安卓最強(qiáng)旗艦處理器的iQOO Neo8系列新機(jī)外，還在發(fā)布會上推出了旗下首款平板電腦——iQOO Pad，其搭載了天璣
聯(lián)想小新Pad Pro 12.6將要推出，搭載高通驍龍 870 處理器

聯(lián)想小新Pad Pro 12.6將于秋季新品會上推出，官方按照慣例直接在發(fā)布會前給出了機(jī)型的所有參數(shù)。聯(lián)想小新 Pad Pro 12.6 將搭載高通驍龍 870 處理器，重量為 5
利用職權(quán)私自解除被封帳號 Meta開除20多名員工

11月18日消息，據(jù)外媒援引知情人士表示，過去一年時間內(nèi)，F(xiàn)acebook母公司Meta解雇或處罰了20多名員工以及合同工，指控這些人通過內(nèi)部系統(tǒng)以不當(dāng)方式重置用戶帳號，其

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

AI居然不聽指令阻止人類把自己給關(guān)機(jī)了

Raft算法：保障分布式系統(tǒng)共識的穩(wěn)健之道

JavaScript學(xué)習(xí) -AES加密算法

Python異步IO編程的進(jìn)程/線程通信實(shí)現(xiàn)

微軟邀請 Microsoft 365 商業(yè)用戶，測試視頻編輯器 Clipchamp

馮提莫簽約抖音公會前“斗魚一姐”消失在直播間

三星推出Galaxy Tab S9系列平板電腦以及Galaxy Watch6系列智能手表

2299元起！iQOO Pad開啟預(yù)售：性能最強(qiáng)天璣平板

聯(lián)想小新Pad Pro 12.6將要推出，搭載高通驍龍 870 處理器

利用職權(quán)私自解除被封帳號 Meta開除20多名員工

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

AI居然不聽指令阻止人類把自己給關(guān)機(jī)了