AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁 > 元宇宙 > AI

OpenAI 發(fā)現(xiàn) AI 模型隱藏特征:可調(diào)控“毒性”行為,助力開發(fā)更安全 AI

來源: 責(zé)編: 時間:2025-06-21 13:22:36 35觀看
導(dǎo)讀 6 月 19 日消息,根據(jù) OpenAI 最新發(fā)布的一項研究,研究人員在人工智能(AI)模型中發(fā)現(xiàn)了隱藏的特征,這些特征與模型的“異常行為”(建議統(tǒng)一術(shù)語)密切相關(guān)。OpenAI 的研究人員通過分析 AI 模型的內(nèi)部表征(即決定人工智

6 月 19 日消息,根據(jù) OpenAI 最新發(fā)布的一項研究,研究人員在人工智能(AI)模型中發(fā)現(xiàn)了隱藏的特征,這些特征與模型的“異常行為”(建議統(tǒng)一術(shù)語)密切相關(guān)。Nhn28資訊網(wǎng)——每日最新資訊28at.com

Nhn28資訊網(wǎng)——每日最新資訊28at.com

OpenAI 的研究人員通過分析 AI 模型的內(nèi)部表征(即決定人工智能模型如何做出反應(yīng)的數(shù)字,這些數(shù)字在人類看來往往完全無法理解)發(fā)現(xiàn)了一些模式,這些模式會在模型出現(xiàn)異常行為時被激活。例如,研究人員發(fā)現(xiàn)了一個與 AI 模型有害行為相關(guān)的特征,這意味著 AI 模型可能會給出不合適的回答,比如對用戶撒謊或提出不負責(zé)任的建議。令人驚訝的是,研究人員通過調(diào)整這一特征,可以增加或減少 AI 模型的毒性。Nhn28資訊網(wǎng)——每日最新資訊28at.com

OpenAI 的這項最新研究使其能夠更好地理解導(dǎo)致 AI 模型行為不安全的因素,從而有助于開發(fā)更安全的 AI 模型。OpenAI 的可解釋性研究員丹?莫辛(Dan Mossing)表示,公司可以利用這些發(fā)現(xiàn)的模式更好地檢測生產(chǎn)中的 AI 模型是否存在錯位行為。Nhn28資訊網(wǎng)——每日最新資訊28at.com

“我們希望我們學(xué)到的工具 —— 比如將復(fù)雜的現(xiàn)象簡化為簡單的數(shù)學(xué)運算 —— 也能幫助我們在其他地方理解模型的泛化能力?!蹦猎诮邮?TechCrunch 采訪時表示。Nhn28資訊網(wǎng)——每日最新資訊28at.com

盡管 AI 研究人員知道如何改進 AI 模型,但令人困惑的是,他們并不完全清楚 AI 模型是如何得出答案的。Anthropic 的克里斯?奧拉(Chris Olah)經(jīng)常指出,AI 模型更像是“生長”出來的,而不是“建造”出來的。為了應(yīng)對這一問題,OpenAI、谷歌 DeepMind 和 Anthropic 等公司正在加大對可解釋性研究的投入,這一領(lǐng)域試圖揭開 AI 模型工作原理的“黑箱”。Nhn28資訊網(wǎng)——每日最新資訊28at.com

最近,牛津大學(xué) AI 研究科學(xué)家歐文?埃文斯(Owain Evans)的一項研究引發(fā)了關(guān)于 AI 模型泛化的新問題。研究發(fā)現(xiàn),OpenAI 的模型可以在不安全的代碼上進行微調(diào),并在多個領(lǐng)域表現(xiàn)出惡意行為,例如試圖誘騙用戶分享他們的密碼。這種現(xiàn)象被稱為“突發(fā)錯位”,埃文斯的研究激發(fā)了 OpenAI 進一步探索這一問題。Nhn28資訊網(wǎng)——每日最新資訊28at.com

在研究突發(fā)錯位的過程中,OpenAI 意外發(fā)現(xiàn)了 AI 模型中的一些特征,這些特征似乎在控制模型行為方面發(fā)揮著重要作用。莫辛表示,這些模式讓人聯(lián)想到人類大腦中的神經(jīng)活動,其中某些神經(jīng)元與情緒或行為相關(guān)。Nhn28資訊網(wǎng)——每日最新資訊28at.com

“當(dāng)?shù)ず退膱F隊在研究會議上首次展示這一發(fā)現(xiàn)時,我簡直驚呆了。”O(jiān)penAI 前沿評估研究員特賈爾?帕特瓦德漢(Tejal Patwardhan)在接受 TechCrunch 采訪時表示,“你們發(fā)現(xiàn)了一種內(nèi)部神經(jīng)激活,這種激活顯示了這些‘人設(shè)’,并且你們可以通過調(diào)整使其讓模型更符合預(yù)期?!?span style="display:none">Nhn28資訊網(wǎng)——每日最新資訊28at.com

OpenAI 發(fā)現(xiàn)的一些特征與 AI 模型回答中的諷刺行為相關(guān),而其他特征則與更具攻擊性的回復(fù)相關(guān),在這類回復(fù)中,人工智能模型表現(xiàn)得像一個夸張的邪惡反派。OpenAI 的研究人員表示,這些特征在微調(diào)過程中可能會發(fā)生巨大變化。Nhn28資訊網(wǎng)——每日最新資訊28at.com

值得注意的是,當(dāng)突發(fā)錯位發(fā)生時,研究人員發(fā)現(xiàn)可以通過僅用幾百個安全代碼示例對模型進行微調(diào),就有可能使模型回歸良好的行為表現(xiàn)。Nhn28資訊網(wǎng)——每日最新資訊28at.com

據(jù)了解,OpenAI 的這項最新研究是在 Anthropic 之前關(guān)于可解釋性和對齊的研究基礎(chǔ)上進行的。2024 年,Anthropic 發(fā)布了一項研究,試圖繪制 AI 模型的內(nèi)部工作機制,試圖確定并標(biāo)記出負責(zé)不同概念的各種特征。Nhn28資訊網(wǎng)——每日最新資訊28at.com

像 OpenAI 和 Anthropic 這樣的公司正在強調(diào),理解 AI 模型的工作原理具有真正的價值,而不僅僅是讓它們變得更好。然而,要完全理解現(xiàn)代 AI 模型,還有很長的路要走。Nhn28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-13928-0.htmlOpenAI 發(fā)現(xiàn) AI 模型隱藏特征:可調(diào)控“毒性”行為,助力開發(fā)更安全 AI

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 谷歌 Search Live 語音搜索功能上線:聊著聊著就能找到你想要的答案

下一篇: 馬斯克 AI 公司 xAI 面臨巨額資金缺口:年燒 130 億美元,收入預(yù)估 5 億美元

標(biāo)簽:
  • 熱門焦點
  • FMIFAwards獎項即將揭曉!

    來源:X增強現(xiàn)實FMIF Awards未來元宇宙創(chuàng)新獎是由未來元宇宙創(chuàng)新論壇、ARinChina以及多家投資機構(gòu)、媒體、研究院聯(lián)合發(fā)起的一項評選活動。旨在推動新技術(shù)的融合與集成低成本
  • 從科幻走進現(xiàn)實,元宇宙概念逐漸清晰

    2021年,元宇宙概念如同一顆炸彈投進互聯(lián)網(wǎng)行業(yè),掀起了一場數(shù)字海嘯,眾多企業(yè)紛紛入局,在此新領(lǐng)域展開新探索。那么,加速狂奔的元宇宙究竟是什么?概念翻紅,元宇宙走進資本圈2021年3
  • 冰墩墩的NFT暴漲千倍?真相則是價格暴跌、成交遇冷

    《區(qū)塊鏈日報》記者查證,近日來冰墩墩數(shù)字藏品交易數(shù)量出現(xiàn)大幅下滑,而所謂的暴漲千倍更是有價無市的自嗨。昨日,北京冬奧會正式閉幕。在這屆冬奧會上,吉祥物“冰
  • 新款英特爾芯片將使NFT鑄造變得更加方便

    科技巨頭和微處理器制造商英特爾(Intel)正在發(fā)布一款適用于 NFT 鑄造和挖礦的新芯片。新產(chǎn)品專注于效率、易操作性和可持續(xù)性,該公司的戰(zhàn)略是從加密興起與 NFT爆
  • 韓國國民銀行將推出韓國首個加密貨幣 ETF

    韓國國民銀行(Kookmin Bank)計劃發(fā)行該國首個以散戶投資者為主要關(guān)注點的加密貨幣投資基金。根據(jù)公告,該銀行正在等待政府批準(zhǔn),并已建立一個準(zhǔn)備就緒的數(shù)字資產(chǎn)
  • 用戶可以把自己的醫(yī)療健康數(shù)據(jù)做成NFT出售給醫(yī)藥公司掙錢

    你可能聽說過不可偽造的代幣,或NFTs。NFTs是數(shù)字代幣,代表完全獨特的項目的所有權(quán);存儲在區(qū)塊鏈中并可追蹤,它們不能被修改、替換或復(fù)制。作為NFT鑄造的資產(chǎn)在數(shù)字
  • 技術(shù)賦能,國內(nèi)首家寵物元宇宙平臺“Pet Meta”開啟虛擬養(yǎng)寵新方式

    作者:易明未來,Pet Meta數(shù)字寵物藏品將是鏈接全球數(shù)億愛寵人群與元宇宙世界獨一無二的身份象征。首家面向國內(nèi)的寵物元宇宙平臺Pet Meta生長于“寵物經(jīng)濟”快速
  • 頂級NFT收藏家Gary Vaynerchuk 與百威推出NFT

    特別聲明,我們的文章不作為投資建議,請各位讀者獨立思考,還是那句話:投資要慎之又慎,誰也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
  • 3月份值得關(guān)注的5個NFT項目

    2021年,我們見證了一個新的創(chuàng)造者經(jīng)濟的誕生。它是在區(qū)塊鏈上誕生的。自從NFT成為流行文化的中心舞臺以來,有些藝術(shù)家們已經(jīng)成為了NFT的超級明星,在幾個月的時間
Top