6 月 19 日消息,根據(jù) OpenAI 最新發(fā)布的一項研究,研究人員在人工智能(AI)模型中發(fā)現(xiàn)了隱藏的特征,這些特征與模型的“異常行為”(建議統(tǒng)一術(shù)語)密切相關(guān)。
OpenAI 的研究人員通過分析 AI 模型的內(nèi)部表征(即決定人工智能模型如何做出反應(yīng)的數(shù)字,這些數(shù)字在人類看來往往完全無法理解)發(fā)現(xiàn)了一些模式,這些模式會在模型出現(xiàn)異常行為時被激活。例如,研究人員發(fā)現(xiàn)了一個與 AI 模型有害行為相關(guān)的特征,這意味著 AI 模型可能會給出不合適的回答,比如對用戶撒謊或提出不負責(zé)任的建議。令人驚訝的是,研究人員通過調(diào)整這一特征,可以增加或減少 AI 模型的毒性。
OpenAI 的這項最新研究使其能夠更好地理解導(dǎo)致 AI 模型行為不安全的因素,從而有助于開發(fā)更安全的 AI 模型。OpenAI 的可解釋性研究員丹?莫辛(Dan Mossing)表示,公司可以利用這些發(fā)現(xiàn)的模式更好地檢測生產(chǎn)中的 AI 模型是否存在錯位行為。
“我們希望我們學(xué)到的工具 —— 比如將復(fù)雜的現(xiàn)象簡化為簡單的數(shù)學(xué)運算 —— 也能幫助我們在其他地方理解模型的泛化能力?!蹦猎诮邮?TechCrunch 采訪時表示。
盡管 AI 研究人員知道如何改進 AI 模型,但令人困惑的是,他們并不完全清楚 AI 模型是如何得出答案的。Anthropic 的克里斯?奧拉(Chris Olah)經(jīng)常指出,AI 模型更像是“生長”出來的,而不是“建造”出來的。為了應(yīng)對這一問題,OpenAI、谷歌 DeepMind 和 Anthropic 等公司正在加大對可解釋性研究的投入,這一領(lǐng)域試圖揭開 AI 模型工作原理的“黑箱”。
最近,牛津大學(xué) AI 研究科學(xué)家歐文?埃文斯(Owain Evans)的一項研究引發(fā)了關(guān)于 AI 模型泛化的新問題。研究發(fā)現(xiàn),OpenAI 的模型可以在不安全的代碼上進行微調(diào),并在多個領(lǐng)域表現(xiàn)出惡意行為,例如試圖誘騙用戶分享他們的密碼。這種現(xiàn)象被稱為“突發(fā)錯位”,埃文斯的研究激發(fā)了 OpenAI 進一步探索這一問題。
在研究突發(fā)錯位的過程中,OpenAI 意外發(fā)現(xiàn)了 AI 模型中的一些特征,這些特征似乎在控制模型行為方面發(fā)揮著重要作用。莫辛表示,這些模式讓人聯(lián)想到人類大腦中的神經(jīng)活動,其中某些神經(jīng)元與情緒或行為相關(guān)。
“當(dāng)?shù)ず退膱F隊在研究會議上首次展示這一發(fā)現(xiàn)時,我簡直驚呆了。”O(jiān)penAI 前沿評估研究員特賈爾?帕特瓦德漢(Tejal Patwardhan)在接受 TechCrunch 采訪時表示,“你們發(fā)現(xiàn)了一種內(nèi)部神經(jīng)激活,這種激活顯示了這些‘人設(shè)’,并且你們可以通過調(diào)整使其讓模型更符合預(yù)期?!?span style="display:none">Nhn28資訊網(wǎng)——每日最新資訊28at.com
OpenAI 發(fā)現(xiàn)的一些特征與 AI 模型回答中的諷刺行為相關(guān),而其他特征則與更具攻擊性的回復(fù)相關(guān),在這類回復(fù)中,人工智能模型表現(xiàn)得像一個夸張的邪惡反派。OpenAI 的研究人員表示,這些特征在微調(diào)過程中可能會發(fā)生巨大變化。
值得注意的是,當(dāng)突發(fā)錯位發(fā)生時,研究人員發(fā)現(xiàn)可以通過僅用幾百個安全代碼示例對模型進行微調(diào),就有可能使模型回歸良好的行為表現(xiàn)。
據(jù)了解,OpenAI 的這項最新研究是在 Anthropic 之前關(guān)于可解釋性和對齊的研究基礎(chǔ)上進行的。2024 年,Anthropic 發(fā)布了一項研究,試圖繪制 AI 模型的內(nèi)部工作機制,試圖確定并標(biāo)記出負責(zé)不同概念的各種特征。
像 OpenAI 和 Anthropic 這樣的公司正在強調(diào),理解 AI 模型的工作原理具有真正的價值,而不僅僅是讓它們變得更好。然而,要完全理解現(xiàn)代 AI 模型,還有很長的路要走。
本文鏈接:http://www.tebozhan.com/showinfo-45-13928-0.htmlOpenAI 發(fā)現(xiàn) AI 模型隱藏特征:可調(diào)控“毒性”行為,助力開發(fā)更安全 AI
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com