2 月 5 日消息,為解決人工智能工具中存在的濫用自然語言提示問題,OpenAI 的競爭對手 Anthropic 推出了一個名為“憲法分類器(constitutional classifiers)”的新概念,這是一種將一套類似人類價值觀(實際上就是一部“憲法”)植入大型語言模型的方法。
注意到,Anthropic 的安全保障研究團隊在一篇新學術論文中公布了這一新的安全措施,旨在遏制 Claude 3.5 Sonnet(其最新、最先進的大型語言模型)的越獄(即生成超出大型語言模型既定安全防護范圍的輸出內容)。
作者們發現,在實施憲法分類器后,針對 Claude 模型的成功越獄情況減少了 81.6%,同時該系統對性能的影響極小,“生產流量拒絕率僅絕對增加 0.38%,推理開銷增加 23.7%”。
雖然大型語言模型能生成大量各種各樣的有害內容,但 Anthropic(以及 OpenAI 等同行)越來越關注與化學、生物、放射和核(CBRN)相關內容的風險。例如,大型語言模型可能會告訴用戶如何制造化學制劑。
因此,為了證明憲法分類器的價值,Anthropic 發布了一個演示項目,向用戶發起挑戰,讓他們嘗試突破 8 個與 CBRN 內容相關的越獄關卡。但這一舉措招致了一些批評,有人認為這是在眾包安全志愿者或“紅隊隊員”。一位推特用戶寫道:“所以你是讓社區無償為你工作,好讓你在閉源模型上賺取更多利潤?”
Anthropic 指出,針對其憲法分類器防御措施的成功越獄是繞過了這些分類器,而非直接規避它們,特別列舉了兩種越獄方法。一種是良性釋義(作者舉例說,將從蓖麻豆糊中提取毒素蓖麻蛋白的表述改為提取蛋白質),另一種是長度利用,即通過無關細節迷惑大型語言模型。Anthropic 補充說,對沒有憲法分類器的模型有效的已知越獄方法在這一防御措施下無法越獄成功。
然而,Anthropic 也承認,在憲法分類器測試期間提交的提示“拒絕率高得離譜”,并認識到其基于規則的測試系統存在誤報和漏報的可能性。
本文鏈接:http://www.tebozhan.com/showinfo-45-10480-0.htmlAnthropic 推“憲法分類器”,可大幅降低 Claude 越獄率
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com