2 月 5 日消息,為解決人工智能工具中存在的濫用自然語(yǔ)言提示問(wèn)題,OpenAI 的競(jìng)爭(zhēng)對(duì)手 Anthropic 推出了一個(gè)名為“憲法分類器(constitutional classifiers)”的新概念,這是一種將一套類似人類價(jià)值觀(實(shí)際上就是一部“憲法”)植入大型語(yǔ)言模型的方法。
注意到,Anthropic 的安全保障研究團(tuán)隊(duì)在一篇新學(xué)術(shù)論文中公布了這一新的安全措施,旨在遏制 Claude 3.5 Sonnet(其最新、最先進(jìn)的大型語(yǔ)言模型)的越獄(即生成超出大型語(yǔ)言模型既定安全防護(hù)范圍的輸出內(nèi)容)。
作者們發(fā)現(xiàn),在實(shí)施憲法分類器后,針對(duì) Claude 模型的成功越獄情況減少了 81.6%,同時(shí)該系統(tǒng)對(duì)性能的影響極小,“生產(chǎn)流量拒絕率僅絕對(duì)增加 0.38%,推理開(kāi)銷增加 23.7%”。
雖然大型語(yǔ)言模型能生成大量各種各樣的有害內(nèi)容,但 Anthropic(以及 OpenAI 等同行)越來(lái)越關(guān)注與化學(xué)、生物、放射和核(CBRN)相關(guān)內(nèi)容的風(fēng)險(xiǎn)。例如,大型語(yǔ)言模型可能會(huì)告訴用戶如何制造化學(xué)制劑。
因此,為了證明憲法分類器的價(jià)值,Anthropic 發(fā)布了一個(gè)演示項(xiàng)目,向用戶發(fā)起挑戰(zhàn),讓他們嘗試突破 8 個(gè)與 CBRN 內(nèi)容相關(guān)的越獄關(guān)卡。但這一舉措招致了一些批評(píng),有人認(rèn)為這是在眾包安全志愿者或“紅隊(duì)隊(duì)員”。一位推特用戶寫(xiě)道:“所以你是讓社區(qū)無(wú)償為你工作,好讓你在閉源模型上賺取更多利潤(rùn)?”
Anthropic 指出,針對(duì)其憲法分類器防御措施的成功越獄是繞過(guò)了這些分類器,而非直接規(guī)避它們,特別列舉了兩種越獄方法。一種是良性釋義(作者舉例說(shuō),將從蓖麻豆糊中提取毒素蓖麻蛋白的表述改為提取蛋白質(zhì)),另一種是長(zhǎng)度利用,即通過(guò)無(wú)關(guān)細(xì)節(jié)迷惑大型語(yǔ)言模型。Anthropic 補(bǔ)充說(shuō),對(duì)沒(méi)有憲法分類器的模型有效的已知越獄方法在這一防御措施下無(wú)法越獄成功。
然而,Anthropic 也承認(rèn),在憲法分類器測(cè)試期間提交的提示“拒絕率高得離譜”,并認(rèn)識(shí)到其基于規(guī)則的測(cè)試系統(tǒng)存在誤報(bào)和漏報(bào)的可能性。
本文鏈接:http://www.tebozhan.com/showinfo-45-10480-0.htmlAnthropic 推“憲法分類器”,可大幅降低 Claude 越獄率
聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com
上一篇: 京東云全面上線 DeepSeek-R1 V3 模型,支持公有云在線部署、專混私有化實(shí)例部署
下一篇: 國(guó)內(nèi)首個(gè):百度成功點(diǎn)亮昆侖芯三代萬(wàn)卡集群,還將點(diǎn)亮 3 萬(wàn)卡集群