當(dāng)前位置：首頁 > 元宇宙 > AI

OpenAI 發(fā)現(xiàn) AI 模型隱藏特征：可調(diào)控“毒性”行為，助力開發(fā)更安全 AI

來源：責(zé)編：時間：2025-06-21 13:22:36 35觀看

導(dǎo)讀 6 月 19 日消息，根據(jù) OpenAI 最新發(fā)布的一項研究，研究人員在人工智能（AI）模型中發(fā)現(xiàn)了隱藏的特征，這些特征與模型的“異常行為”（建議統(tǒng)一術(shù)語）密切相關(guān)。OpenAI 的研究人員通過分析 AI 模型的內(nèi)部表征（即決定人工智

6 月 19 日消息，根據(jù) OpenAI 最新發(fā)布的一項研究，研究人員在人工智能（AI）模型中發(fā)現(xiàn)了隱藏的特征，這些特征與模型的“異常行為”（建議統(tǒng)一術(shù)語）密切相關(guān)。

OpenAI 的研究人員通過分析 AI 模型的內(nèi)部表征（即決定人工智能模型如何做出反應(yīng)的數(shù)字，這些數(shù)字在人類看來往往完全無法理解）發(fā)現(xiàn)了一些模式，這些模式會在模型出現(xiàn)異常行為時被激活。例如，研究人員發(fā)現(xiàn)了一個與 AI 模型有害行為相關(guān)的特征，這意味著 AI 模型可能會給出不合適的回答，比如對用戶撒謊或提出不負責(zé)任的建議。令人驚訝的是，研究人員通過調(diào)整這一特征，可以增加或減少 AI 模型的毒性。

OpenAI 的這項最新研究使其能夠更好地理解導(dǎo)致 AI 模型行為不安全的因素，從而有助于開發(fā)更安全的 AI 模型。OpenAI 的可解釋性研究員丹?莫辛（Dan Mossing）表示，公司可以利用這些發(fā)現(xiàn)的模式更好地檢測生產(chǎn)中的 AI 模型是否存在錯位行為。

“我們希望我們學(xué)到的工具 —— 比如將復(fù)雜的現(xiàn)象簡化為簡單的數(shù)學(xué)運算 —— 也能幫助我們在其他地方理解模型的泛化能力?！蹦猎诮邮?TechCrunch 采訪時表示。

盡管 AI 研究人員知道如何改進 AI 模型，但令人困惑的是，他們并不完全清楚 AI 模型是如何得出答案的。Anthropic 的克里斯?奧拉（Chris Olah）經(jīng)常指出，AI 模型更像是“生長”出來的，而不是“建造”出來的。為了應(yīng)對這一問題，OpenAI、谷歌 DeepMind 和 Anthropic 等公司正在加大對可解釋性研究的投入，這一領(lǐng)域試圖揭開 AI 模型工作原理的“黑箱”。

最近，牛津大學(xué) AI 研究科學(xué)家歐文?埃文斯（Owain Evans）的一項研究引發(fā)了關(guān)于 AI 模型泛化的新問題。研究發(fā)現(xiàn)，OpenAI 的模型可以在不安全的代碼上進行微調(diào)，并在多個領(lǐng)域表現(xiàn)出惡意行為，例如試圖誘騙用戶分享他們的密碼。這種現(xiàn)象被稱為“突發(fā)錯位”，埃文斯的研究激發(fā)了 OpenAI 進一步探索這一問題。

在研究突發(fā)錯位的過程中，OpenAI 意外發(fā)現(xiàn)了 AI 模型中的一些特征，這些特征似乎在控制模型行為方面發(fā)揮著重要作用。莫辛表示，這些模式讓人聯(lián)想到人類大腦中的神經(jīng)活動，其中某些神經(jīng)元與情緒或行為相關(guān)。

“當(dāng)?shù)ず退膱F隊在研究會議上首次展示這一發(fā)現(xiàn)時，我簡直驚呆了。”O(jiān)penAI 前沿評估研究員特賈爾?帕特瓦德漢（Tejal Patwardhan）在接受 TechCrunch 采訪時表示，“你們發(fā)現(xiàn)了一種內(nèi)部神經(jīng)激活，這種激活顯示了這些‘人設(shè)’，并且你們可以通過調(diào)整使其讓模型更符合預(yù)期?！?span style="display:none">Nhn28資訊網(wǎng)——每日最新資訊28at.com

OpenAI 發(fā)現(xiàn)的一些特征與 AI 模型回答中的諷刺行為相關(guān)，而其他特征則與更具攻擊性的回復(fù)相關(guān)，在這類回復(fù)中，人工智能模型表現(xiàn)得像一個夸張的邪惡反派。OpenAI 的研究人員表示，這些特征在微調(diào)過程中可能會發(fā)生巨大變化。

值得注意的是，當(dāng)突發(fā)錯位發(fā)生時，研究人員發(fā)現(xiàn)可以通過僅用幾百個安全代碼示例對模型進行微調(diào)，就有可能使模型回歸良好的行為表現(xiàn)。

據(jù)了解，OpenAI 的這項最新研究是在 Anthropic 之前關(guān)于可解釋性和對齊的研究基礎(chǔ)上進行的。2024 年，Anthropic 發(fā)布了一項研究，試圖繪制 AI 模型的內(nèi)部工作機制，試圖確定并標(biāo)記出負責(zé)不同概念的各種特征。

像 OpenAI 和 Anthropic 這樣的公司正在強調(diào)，理解 AI 模型的工作原理具有真正的價值，而不僅僅是讓它們變得更好。然而，要完全理解現(xiàn)代 AI 模型，還有很長的路要走。

本文鏈接：http://www.tebozhan.com/showinfo-45-13928-0.htmlOpenAI 發(fā)現(xiàn) AI 模型隱藏特征：可調(diào)控“毒性”行為，助力開發(fā)更安全 AI

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：谷歌 Search Live 語音搜索功能上線：聊著聊著就能找到你想要的答案

下一篇：馬斯克 AI 公司 xAI 面臨巨額資金缺口：年燒 130 億美元，收入預(yù)估 5 億美元

標(biāo)簽：

熱門焦點

FMIFAwards獎項即將揭曉！

來源：X增強現(xiàn)實FMIF Awards未來元宇宙創(chuàng)新獎是由未來元宇宙創(chuàng)新論壇、ARinChina以及多家投資機構(gòu)、媒體、研究院聯(lián)合發(fā)起的一項評選活動。旨在推動新技術(shù)的融合與集成低成本
從科幻走進現(xiàn)實，元宇宙概念逐漸清晰

2021年，元宇宙概念如同一顆炸彈投進互聯(lián)網(wǎng)行業(yè)，掀起了一場數(shù)字海嘯，眾多企業(yè)紛紛入局，在此新領(lǐng)域展開新探索。那么，加速狂奔的元宇宙究竟是什么？概念翻紅，元宇宙走進資本圈2021年3
冰墩墩的NFT暴漲千倍？真相則是價格暴跌、成交遇冷

《區(qū)塊鏈日報》記者查證，近日來冰墩墩數(shù)字藏品交易數(shù)量出現(xiàn)大幅下滑，而所謂的暴漲千倍更是有價無市的自嗨。昨日，北京冬奧會正式閉幕。在這屆冬奧會上，吉祥物“冰
新款英特爾芯片將使NFT鑄造變得更加方便

科技巨頭和微處理器制造商英特爾（Intel）正在發(fā)布一款適用于 NFT 鑄造和挖礦的新芯片。新產(chǎn)品專注于效率、易操作性和可持續(xù)性，該公司的戰(zhàn)略是從加密興起與 NFT爆
韓國國民銀行將推出韓國首個加密貨幣 ETF

韓國國民銀行(Kookmin Bank)計劃發(fā)行該國首個以散戶投資者為主要關(guān)注點的加密貨幣投資基金。根據(jù)公告，該銀行正在等待政府批準(zhǔn)，并已建立一個準(zhǔn)備就緒的數(shù)字資產(chǎn)
用戶可以把自己的醫(yī)療健康數(shù)據(jù)做成NFT出售給醫(yī)藥公司掙錢

你可能聽說過不可偽造的代幣，或NFTs。NFTs是數(shù)字代幣，代表完全獨特的項目的所有權(quán)；存儲在區(qū)塊鏈中并可追蹤，它們不能被修改、替換或復(fù)制。作為NFT鑄造的資產(chǎn)在數(shù)字
技術(shù)賦能，國內(nèi)首家寵物元宇宙平臺“Pet Meta”開啟虛擬養(yǎng)寵新方式

作者:易明未來，Pet Meta數(shù)字寵物藏品將是鏈接全球數(shù)億愛寵人群與元宇宙世界獨一無二的身份象征。首家面向國內(nèi)的寵物元宇宙平臺Pet Meta生長于“寵物經(jīng)濟”快速
頂級NFT收藏家Gary Vaynerchuk 與百威推出NFT

特別聲明，我們的文章不作為投資建議，請各位讀者獨立思考，還是那句話：投資要慎之又慎，誰也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
3月份值得關(guān)注的5個NFT項目

2021年，我們見證了一個新的創(chuàng)造者經(jīng)濟的誕生。它是在區(qū)塊鏈上誕生的。自從NFT成為流行文化的中心舞臺以來，有些藝術(shù)家們已經(jīng)成為了NFT的超級明星，在幾個月的時間

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

OpenAI 發(fā)現(xiàn) AI 模型隱藏特征：可調(diào)控“毒性”行為，助力開發(fā)更安全 AI

FMIFAwards獎項即將揭曉！

從科幻走進現(xiàn)實，元宇宙概念逐漸清晰

冰墩墩的NFT暴漲千倍？真相則是價格暴跌、成交遇冷

新款英特爾芯片將使NFT鑄造變得更加方便

韓國國民銀行將推出韓國首個加密貨幣 ETF

用戶可以把自己的醫(yī)療健康數(shù)據(jù)做成NFT出售給醫(yī)藥公司掙錢

技術(shù)賦能，國內(nèi)首家寵物元宇宙平臺“Pet Meta”開啟虛擬養(yǎng)寵新方式

頂級NFT收藏家Gary Vaynerchuk 與百威推出NFT

3月份值得關(guān)注的5個NFT項目

最新推薦

星展銀行(DBS)計劃推出零售數(shù)字資產(chǎn)交易服務(wù)

比特幣的價格越高，使用價值越大

從NFT頂級公鏈到Web3.0基礎(chǔ)設(shè)施：帶你了解不一樣的Flow

借VR產(chǎn)業(yè)東風(fēng)，江西搶灘布局“元宇宙”

NFT教育要從娃娃抓起！這些青少年藝術(shù)家已經(jīng)賺取了幾千萬美金

我們離元宇宙的實現(xiàn)只差一副眼鏡？

猜你喜歡

熱門推薦

相關(guān)資訊

OpenAI 發(fā)現(xiàn) AI 模型隱藏特征：可調(diào)控“毒性”行為，助力開發(fā)更安全 AI

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊

OpenAI 發(fā)現(xiàn) AI 模型隱藏特征：可調(diào)控“毒性”行為，助力開發(fā)更安全 AI