AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當前位置:首頁 > 元宇宙 > AI

Anthropic 推“憲法分類器”,可大幅降低 Claude 越獄率

來源: 責編: 時間:2025-02-06 07:50:36 79觀看
導讀 2 月 5 日消息,為解決人工智能工具中存在的濫用自然語言提示問題,OpenAI 的競爭對手 Anthropic 推出了一個名為“憲法分類器(constitutional classifiers)”的新概念,這是一種將一套類似人類價值觀(實際上就是一部

2 月 5 日消息,為解決人工智能工具中存在的濫用自然語言提示問題,OpenAI 的競爭對手 Anthropic 推出了一個名為“憲法分類器(constitutional classifiers)”的新概念,這是一種將一套類似人類價值觀(實際上就是一部“憲法”)植入大型語言模型的方法。36I28資訊網——每日最新資訊28at.com

36I28資訊網——每日最新資訊28at.com

注意到,Anthropic 的安全保障研究團隊在一篇新學術論文中公布了這一新的安全措施,旨在遏制 Claude 3.5 Sonnet(其最新、最先進的大型語言模型)的越獄(即生成超出大型語言模型既定安全防護范圍的輸出內容)。36I28資訊網——每日最新資訊28at.com

作者們發現,在實施憲法分類器后,針對 Claude 模型的成功越獄情況減少了 81.6%,同時該系統對性能的影響極小,“生產流量拒絕率僅絕對增加 0.38%,推理開銷增加 23.7%”。36I28資訊網——每日最新資訊28at.com

雖然大型語言模型能生成大量各種各樣的有害內容,但 Anthropic(以及 OpenAI 等同行)越來越關注與化學、生物、放射和核(CBRN)相關內容的風險。例如,大型語言模型可能會告訴用戶如何制造化學制劑。36I28資訊網——每日最新資訊28at.com

因此,為了證明憲法分類器的價值,Anthropic 發布了一個演示項目,向用戶發起挑戰,讓他們嘗試突破 8 個與 CBRN 內容相關的越獄關卡。但這一舉措招致了一些批評,有人認為這是在眾包安全志愿者或“紅隊隊員”。一位推特用戶寫道:“所以你是讓社區無償為你工作,好讓你在閉源模型上賺取更多利潤?”36I28資訊網——每日最新資訊28at.com

Anthropic 指出,針對其憲法分類器防御措施的成功越獄是繞過了這些分類器,而非直接規避它們,特別列舉了兩種越獄方法。一種是良性釋義(作者舉例說,將從蓖麻豆糊中提取毒素蓖麻蛋白的表述改為提取蛋白質),另一種是長度利用,即通過無關細節迷惑大型語言模型。Anthropic 補充說,對沒有憲法分類器的模型有效的已知越獄方法在這一防御措施下無法越獄成功。36I28資訊網——每日最新資訊28at.com

然而,Anthropic 也承認,在憲法分類器測試期間提交的提示“拒絕率高得離譜”,并認識到其基于規則的測試系統存在誤報和漏報的可能性。36I28資訊網——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-10480-0.htmlAnthropic 推“憲法分類器”,可大幅降低 Claude 越獄率

聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 京東云全面上線 DeepSeek-R1 V3 模型,支持公有云在線部署、專混私有化實例部署

下一篇: 國內首個:百度成功點亮昆侖芯三代萬卡集群,還將點亮 3 萬卡集群

標簽:
  • 熱門焦點
Top