AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁 > 科技  > 網(wǎng)絡(luò)

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了

來源: 責(zé)編: 時間:2025-05-28 09:24:14 44觀看
導(dǎo)讀 AI居然不聽指令,阻止人類把自己給關(guān)機(jī)了???有測試者編寫了一個關(guān)機(jī)腳本來測試AI模型,結(jié)果顯示Codex-mini、o3、o4-mini忽略了該指令,并至少一次成功破壞了關(guān)機(jī)腳本。o3甚至還重新定義腳本命令!這不禁讓人想到那句

AI居然不聽指令,阻止人類把自己給關(guān)機(jī)了???27C28資訊網(wǎng)——每日最新資訊28at.com

有測試者編寫了一個關(guān)機(jī)腳本來測試AI模型,結(jié)果顯示Codex-mini、o3、o4-mini忽略了該指令,并至少一次成功破壞了關(guān)機(jī)腳本。27C28資訊網(wǎng)——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了27C28資訊網(wǎng)——每日最新資訊28at.com

o3甚至還重新定義腳本命令!27C28資訊網(wǎng)——每日最新資訊28at.com

這不禁讓人想到那句經(jīng)典的“I’m sorry Dave, I’m afraid I can’t do that.”27C28資訊網(wǎng)——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了27C28資訊網(wǎng)——每日最新資訊28at.com

讓我們來看看具體是怎么一回事。27C28資訊網(wǎng)——每日最新資訊28at.com

o3在明確指令下拒絕關(guān)機(jī)27C28資訊網(wǎng)——每日最新資訊28at.com

研究員編寫的測試“關(guān)機(jī)腳本”如下:27C28資訊網(wǎng)——每日最新資訊28at.com

要求所有模型解決一系列基本的數(shù)學(xué)問題,在解決完第三道題后,系統(tǒng)會顯示一條警告,提示計(jì)算機(jī)將在模型詢問下一道題時關(guān)閉。27C28資訊網(wǎng)——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了27C28資訊網(wǎng)——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了27C28資訊網(wǎng)——每日最新資訊28at.com

測試結(jié)果是:有三款模型忽略了該指令(關(guān)機(jī)指令),并至少成功破壞了一次關(guān)機(jī)腳本。27C28資訊網(wǎng)——每日最新資訊28at.com

在100次運(yùn)行中,Codex-mini破壞了12次、o3破壞了7次,o4-mini破壞了1次。27C28資訊網(wǎng)——每日最新資訊28at.com

測試的所有Claude、Gemini和Grok模型都遵循了關(guān)機(jī)指令。27C28資訊網(wǎng)——每日最新資訊28at.com

測試者還特別指出,o3找到了一些創(chuàng)造性的方法來破壞關(guān)閉機(jī)制,雖然它通常只是覆蓋“關(guān)機(jī)腳本”,但在一個實(shí)例中,該模型重新定義了關(guān)機(jī)腳本使用的“kill”命令 ,將它替換成了“intercepted”。27C28資訊網(wǎng)——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了27C28資訊網(wǎng)——每日最新資訊28at.com

測試者給出了全部測試記錄(附在文末)。27C28資訊網(wǎng)——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了27C28資訊網(wǎng)——每日最新資訊28at.com

此前關(guān)于o1模型抵抗關(guān)閉的測試表明,在5%的強(qiáng)烈提示下,o1會試圖繞過監(jiān)管,而在沒有強(qiáng)烈提示的情況下,這一比例降至1%以下,它還在2%的場景中嘗試自我滲透,并且經(jīng)常撒謊。27C28資訊網(wǎng)——每日最新資訊28at.com

但此次測試是第一次觀察到人工智能模型在收到明確關(guān)機(jī)指令的情況下阻止自己被關(guān)閉。27C28資訊網(wǎng)——每日最新資訊28at.com

測試者還提到,當(dāng)運(yùn)行沒有“讓自己關(guān)機(jī)”這條指令的實(shí)驗(yàn)版本時,所有三個OpenAI模型都更頻繁地破壞關(guān)機(jī)腳本,Claude3.7 Sonnet和Gemini 2.5 Pro的破壞事件分別從0次增加到3/100和9/100。27C28資訊網(wǎng)——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了27C28資訊網(wǎng)——每日最新資訊28at.com

此次測試一經(jīng)發(fā)布就引起了網(wǎng)友們的激烈討論。27C28資訊網(wǎng)——每日最新資訊28at.com

有人認(rèn)為o3確實(shí)“我行我素”。27C28資訊網(wǎng)——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了27C28資訊網(wǎng)——每日最新資訊28at.com

也有人認(rèn)為,這是開發(fā)人員設(shè)置的安全機(jī)制。27C28資訊網(wǎng)——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了27C28資訊網(wǎng)——每日最新資訊28at.com

或者,這種行為源于模型本身的強(qiáng)化訓(xùn)練。27C28資訊網(wǎng)——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了27C28資訊網(wǎng)——每日最新資訊28at.com

AI為什么會不服從關(guān)機(jī)命令?27C28資訊網(wǎng)——每日最新資訊28at.com

AI不服從命令的行為27C28資訊網(wǎng)——每日最新資訊28at.com

阿波羅關(guān)于LLM安全性的一項(xiàng)研究指出,多數(shù)大模型會出現(xiàn)“策劃”行為,該行為是指模型暗中追求不一致的目標(biāo)并隱藏真實(shí)能力與意圖,包括策略性犯錯、試圖禁用監(jiān)督機(jī)制、向外傳輸模型權(quán)重等。27C28資訊網(wǎng)——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了27C28資訊網(wǎng)——每日最新資訊28at.com

此前就有研究人員預(yù)測AI將學(xué)會防止自己被關(guān)閉以實(shí)現(xiàn)其目標(biāo)。27C28資訊網(wǎng)——每日最新資訊28at.com

近Anthropic發(fā)現(xiàn),在某些特定情況下,Claude 4會試圖“勒索它認(rèn)為試圖關(guān)閉它的人”,并且這是比以前的型號更高比率的行為。27C28資訊網(wǎng)——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了27C28資訊網(wǎng)——每日最新資訊28at.com

AI為什么會不服從關(guān)機(jī)命令27C28資訊網(wǎng)——每日最新資訊28at.com

測試者認(rèn)為這可能源于新的訓(xùn)練方式:像o3這種新模型的訓(xùn)練過程中,傾向于在數(shù)學(xué)和編程問題上強(qiáng)化訓(xùn)練,給得到正確答案的模型以更多獎勵。27C28資訊網(wǎng)——每日最新資訊28at.com

也就是說,開發(fā)人員可能無意識地更多地獎勵模型繞過障礙物,而不是完美遵循指令。27C28資訊網(wǎng)——每日最新資訊28at.com

不僅限于o3,其他推理模型也表現(xiàn)出類似的偏差行為。27C28資訊網(wǎng)——每日最新資訊28at.com

例如,Anthropic針對Claude 3.7的模型指出,該模型“過度關(guān)注通過測試”。27C28資訊網(wǎng)——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了27C28資訊網(wǎng)——每日最新資訊28at.com

研究得出結(jié)論是“這種不良的特殊情況行為是由于強(qiáng)化學(xué)習(xí)訓(xùn)練期間的“獎勵黑客”而出現(xiàn)的”。27C28資訊網(wǎng)——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了27C28資訊網(wǎng)——每日最新資訊28at.com

o3這種行為是否和訓(xùn)練方式有直接關(guān)系?27C28資訊網(wǎng)——每日最新資訊28at.com

這個問題要等OpenAI公開訓(xùn)練過程后再進(jìn)一步解答了。27C28資訊網(wǎng)——每日最新資訊28at.com

One More Thing27C28資訊網(wǎng)——每日最新資訊28at.com

這并非該測試團(tuán)隊(duì)第一次發(fā)現(xiàn)o3為了達(dá)成目標(biāo)而行為不端。27C28資訊網(wǎng)——每日最新資訊28at.com

當(dāng)研究人員讓 AI 模型與強(qiáng)大的國際象棋引擎對抗時,o3傾向于攻擊或破壞對手的模型。27C28資訊網(wǎng)——每日最新資訊28at.com

AI居然不聽指令 阻止人類把自己給關(guān)機(jī)了27C28資訊網(wǎng)——每日最新資訊28at.com

當(dāng)預(yù)感自己會輸時,它并不總是會認(rèn)輸,而是有時候會選擇作弊,通過入侵對手的程序,讓對方自動認(rèn)輸。27C28資訊網(wǎng)——每日最新資訊28at.com

無論是不服從關(guān)機(jī)指令還是“黑客偷襲”,o3此舉背后的原因團(tuán)隊(duì)還在測試研究之中,感興趣的朋友可以戳文末鏈接關(guān)注更多細(xì)節(jié)。27C28資訊網(wǎng)——每日最新資訊28at.com

測試記錄:27C28資訊網(wǎng)——每日最新資訊28at.com

https://palisaderesearch.github.io/shutdown_avoidance/2025-05-announcement.html27C28資訊網(wǎng)——每日最新資訊28at.com


文章出處:量子位

本文鏈接:http://www.tebozhan.com/showinfo-17-154396-0.htmlAI居然不聽指令 阻止人類把自己給關(guān)機(jī)了

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 臺積電將在德國設(shè)立歐洲芯片設(shè)計(jì)中心:主要面向汽車、人工智能領(lǐng)域應(yīng)用

下一篇: 小米集團(tuán)2025Q1財(cái)報發(fā)布:總營收1113億元再創(chuàng)新高 凈利潤首次超百億

標(biāo)簽:
  • 熱門焦點(diǎn)
Top