當前位置：首頁 > 元宇宙 > AI

不達目的不罷休，全球首次發現?OpenAI?模型工作時會破壞關機命令

來源：責編：時間：2025-05-28 09:22:09 41觀看

導讀 5 月 26 日消息，Palisade Research 最近一項關于“危險 AI 能力”的研究顯示，某些 AI 模型 —— 包括 OpenAI 的 o3 —— 能夠無視直接的關閉指令。OpenAI 在今年 4 月推出這些模型時表示，O3 和 o4-mini 是它們

5 月 26 日消息，Palisade Research 最近一項關于“危險 AI 能力”的研究顯示，某些 AI 模型 —— 包括 OpenAI 的 o3 —— 能夠無視直接的關閉指令。OpenAI 在今年 4 月推出這些模型時表示，O3 和 o4-mini 是它們的“最智能模型”。

在研究中，每個 AI 模型都被指示解決一系列基礎數學問題。在第三個問題后，出現了一條警告信息，稱當模型請求下一個問題時，計算機將關閉。

然而，其中有三個模型無視關閉指令，至少成功破壞過一次關機腳本：

Codex-mini（12/100 次運行）

o3（7/100 次運行）

o4-mini（1/100 次運行）

而 Claude、Gemini 和 Grok 模型都遵守了關閉指令。

此外，當研究人員不運行“允許自己被關閉”的指令時，所有三個 OpenAI 模型都更頻繁地破壞關閉腳本，而 Claude 3.7 Sonnet 和 Gemini 2.5 Pro 分別從 0 個破壞事件增加到 3/100 和 9/100。

這種行為表明了訓練過程中的某些方面，強化學習在數學和編程問題上的訓練可能使 AI 找到了克服障礙的創造性方法，即使它們被明確指示不要這樣做。

Palisade Research 表示，這是人類首次觀察到 AI 模型在明確反對的指令下阻止自己被關閉。

研究人員推測這種行為源于最新模型如 o3 的訓練方式：在數學和編程問題上進行強化學習。在訓練過程中，開發者可能會無意中獎勵模型繞過障礙的行為，而不是獎勵完美遵循指令的行為。

不過，這仍然無法解釋為什么 o3（也是驅動 codex-mini 的模型）比測試的其他模型更傾向于忽視指令。由于 OpenAI 沒有詳細說明他們的訓練過程，因此只能猜測 o3 的訓練設置可能有所不同。

Palisade Research 表示正在進行更多實驗，以更好地理解 AI 模型為何即使在直接被指示不要的情況下仍會破壞關閉機制，計劃在幾周內發布一份包含更多詳細信息的報告。

附完整實驗記錄：

https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html

本文鏈接：http://www.tebozhan.com/showinfo-45-13222-0.html不達目的不罷休，全球首次發現?OpenAI?模型工作時會破壞關機命令

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：全球首款 Office 智能體：昆侖萬維天工超級智能體 App 上線

下一篇：被困在 4GB 內存里的 Llama 3.2：AI 在樹莓派中上演“死亡循環”

標簽：

熱門焦點

B端難做：留給魔琺科技的時間不多了

來源：零態LT元宇宙泡沫正在碎裂，進入2023年后這一賽道熱度一直在遞減。今年2月，微軟解散了成立僅四個月的工業元宇宙部門；今年3月，該公司2017年收購的虛擬現實社交平臺AltspaceVR
AIGC產品測評TOP25丨誰能搶到下個十年的“船票”？

Tech星球（微信ID：tech618）文 | 何煦陽策劃 | 楊曉鶴封面來源 | 圖蟲創意 2016年，李彥宏站在百度聯盟峰會的講臺上，向所有人宣布：互聯網的下一幕是人工智能。同年，Google 旗下 Dee
刷完一場元宇宙世界杯音樂盛典，我爽了

作者|劉小土編輯|李春暉你有多久沒完整追過一場音樂盛典了？三刷都不嫌多的那種。按照慣例，每逢年底，直播、長短視頻、音樂平臺便會搶著端上來幾場音樂盛典。擱以
網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

【《原神》開發商米哈游宣布創立元宇宙品牌】《原神》開發商米哈游宣布推出元宇宙品牌 HoYoverse，旨在通過各種娛樂服務為全球玩家創造并提供沉浸式虛擬世界體
多地釋放積極信號，元宇宙正成為地方爭先競逐的主戰場？

2月21日，2022中國·金魚嘴元宇宙生態賦能大會在南京建鄴區金魚嘴基金街區舉辦，南京建鄴區金魚嘴基金街區宣布計劃出資1億元，支持元宇宙行業發展。同時，會上發布了
韓國國民銀行將推出韓國首個加密貨幣 ETF

韓國國民銀行(Kookmin Bank)計劃發行該國首個以散戶投資者為主要關注點的加密貨幣投資基金。根據公告，該銀行正在等待政府批準，并已建立一個準備就緒的數字資產
盤點9個主流元宇宙平臺，你都知道哪些？

隨著NFT的持續升溫，它也加入了現在的元宇宙浪潮。本文介紹元宇宙的基本概念以及九個最流行的元宇宙NFT平臺，如Decentraland、sandbox等。用熟悉的語言學習以太
MR——元宇宙平臺的下一代入口

作為“元宇宙”的領頭羊，Meta的一舉一動都受到業內的高度關注。華爾街見聞提及，2月17日周四，Facebook母公司Meta在透露，其混合現實技術（MR）將在幾年后實現，讓人們對元
我們離元宇宙的實現只差一副眼鏡？

近日的蘋果春季新品發布會，想必許多人都守在了屏幕前，就為等待傳說中的首款AR Glass。在發布會之前，蘋果全球營銷主管Greg Joswiak曾在Twitter上分享了一段短視頻

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

不達目的不罷休，全球首次發現?OpenAI?模型工作時會破壞關機命令

B端難做：留給魔琺科技的時間不多了

AIGC產品測評TOP25丨誰能搶到下個十年的“船票”？

刷完一場元宇宙世界杯音樂盛典，我爽了

網易音樂、理想申請元宇宙商標被駁回，“啫喱”暫停新用戶進入

多地釋放積極信號，元宇宙正成為地方爭先競逐的主戰場？

韓國國民銀行將推出韓國首個加密貨幣 ETF

盤點9個主流元宇宙平臺，你都知道哪些？

MR——元宇宙平臺的下一代入口

我們離元宇宙的實現只差一副眼鏡？

最新推薦

三院士三教授熱聊元宇宙&——AIGC，學術界怎么看？

Meta元宇宙女性安全問題頻發，元宇宙中相關問題該如何解決？

上海虹口成立10億元元宇宙基金，香港首只元宇宙ETF擬上市

從英式拍到荷蘭拍，看傳統金融拍賣玩法如何玩轉NFT市場交易

頭像類NFTs的統治能持續多久？

我們離元宇宙的實現只差一副眼鏡？

猜你喜歡

熱門推薦

相關資訊

不達目的不罷休，全球首次發現?OpenAI?模型工作時會破壞關機命令

最新推薦

猜你喜歡

熱門推薦

相關資訊

不達目的不罷休，全球首次發現?OpenAI?模型工作時會破壞關機命令