當前位置：首頁 > 元宇宙 > AI

Anthropic 推“憲法分類器”，可大幅降低 Claude 越獄率

來源：責編：時間：2025-02-06 07:50:36 79觀看

導讀 2 月 5 日消息，為解決人工智能工具中存在的濫用自然語言提示問題，OpenAI 的競爭對手 Anthropic 推出了一個名為“憲法分類器（constitutional classifiers）”的新概念，這是一種將一套類似人類價值觀（實際上就是一部

2 月 5 日消息，為解決人工智能工具中存在的濫用自然語言提示問題，OpenAI 的競爭對手 Anthropic 推出了一個名為“憲法分類器（constitutional classifiers）”的新概念，這是一種將一套類似人類價值觀（實際上就是一部“憲法”）植入大型語言模型的方法。

注意到，Anthropic 的安全保障研究團隊在一篇新學術論文中公布了這一新的安全措施，旨在遏制 Claude 3.5 Sonnet（其最新、最先進的大型語言模型）的越獄（即生成超出大型語言模型既定安全防護范圍的輸出內容）。

作者們發現，在實施憲法分類器后，針對 Claude 模型的成功越獄情況減少了 81.6%，同時該系統對性能的影響極小，“生產流量拒絕率僅絕對增加 0.38%，推理開銷增加 23.7%”。

雖然大型語言模型能生成大量各種各樣的有害內容，但 Anthropic（以及 OpenAI 等同行）越來越關注與化學、生物、放射和核（CBRN）相關內容的風險。例如，大型語言模型可能會告訴用戶如何制造化學制劑。

因此，為了證明憲法分類器的價值，Anthropic 發布了一個演示項目，向用戶發起挑戰，讓他們嘗試突破 8 個與 CBRN 內容相關的越獄關卡。但這一舉措招致了一些批評，有人認為這是在眾包安全志愿者或“紅隊隊員”。一位推特用戶寫道：“所以你是讓社區無償為你工作，好讓你在閉源模型上賺取更多利潤？”

Anthropic 指出，針對其憲法分類器防御措施的成功越獄是繞過了這些分類器，而非直接規避它們，特別列舉了兩種越獄方法。一種是良性釋義（作者舉例說，將從蓖麻豆糊中提取毒素蓖麻蛋白的表述改為提取蛋白質），另一種是長度利用，即通過無關細節迷惑大型語言模型。Anthropic 補充說，對沒有憲法分類器的模型有效的已知越獄方法在這一防御措施下無法越獄成功。

然而，Anthropic 也承認，在憲法分類器測試期間提交的提示“拒絕率高得離譜”，并認識到其基于規則的測試系統存在誤報和漏報的可能性。

本文鏈接：http://www.tebozhan.com/showinfo-45-10480-0.htmlAnthropic 推“憲法分類器”，可大幅降低 Claude 越獄率

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：京東云全面上線 DeepSeek-R1 V3 模型，支持公有云在線部署、專混私有化實例部署

下一篇：國內首個：百度成功點亮昆侖芯三代萬卡集群，還將點亮 3 萬卡集群

標簽：

熱門焦點

元宇宙終究沒火過兩年

來源：傳播體操在ChatGPT快速破圈的同時，元宇宙的熱度卻一瀉千里。雖然互聯網大廠們都沒有否認元宇宙的長期想象力，但在行動上卻都紛紛表示了對元宇宙短期前景的悲觀。號稱改變
數字人的AB面：在元宇宙中過氣，在AIGC中重生

來源：光錐智能作者：郝鑫“29800元一年的虛擬主播，號稱24小時不停播，月入十幾萬，實際上卻是關鍵詞都不能回復，播了半個月，直播間還因違規被快手封禁，最終投訴無門、退款無果。&
不同于傳統數字經濟，元宇宙賦予商業生態更多數字資產價值！

作者：中科基大數據元宇宙是一個去中心化的開放平臺，而為了維護這樣的平臺，需要建立一個公平的游戲規則，確保每個元宇宙的參與者通過這個規則都可以掙到錢，他們的利益都可以得到保
中國虛擬數字人如何橫向拓展市場需求，探索發展場景?

通過5G、AI等新技術更新換代，虛擬數字人為諸多下游行業帶來新的發展機會。虛擬數字人技術以其簡化性和精品性持續拓展泛娛樂、金融、教育、政務、醫療、零售等
新款英特爾芯片將使NFT鑄造變得更加方便

科技巨頭和微處理器制造商英特爾（Intel）正在發布一款適用于 NFT 鑄造和挖礦的新芯片。新產品專注于效率、易操作性和可持續性，該公司的戰略是從加密興起與 NFT爆
頭頂光環無數卻估值極低，以太坊這位&——quot;最強殺手&——quot;有望涅槃重生？

作者：五火球教主提起Dfinity（ICP），你的第一感覺可能與我一樣，這是一個讓人十分糾結的項目。之所以糾結，一方面他的團隊陣容強大，各種來自前英特爾、IBM、coinbase、fa
NFT 技術將傳世之作帶入博物館

意大利四大博物館已與一個項目合作，該項目將展示和銷售達芬奇、卡拉瓦喬、拉斐爾和莫迪利亞尼等人的杰作的 NFT復制品。該計劃采用了科技公司Cincello的國際專
NFT：新騙局的狩獵場

騙局的自動化需要更好的防御，從數字身份開始。前幾天我在OpenSea上購買了一個NFT，是才華橫溢的藝術家海倫·福爾摩斯 (Helen Holmes) 的漫畫，來自她的 "原作 "收
韓國流行音樂巨頭SM與Binance達成NFT合作伙伴關系

韓國流行音樂巨頭 SM Entertainment 與加密貨幣交易所 Binance（幣安）達成“Play2Create”NFT 合作伙伴關系。SM 娛樂一直在投資打造元宇宙該公司于 2020 年 10

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

Anthropic 推“憲法分類器”，可大幅降低 Claude 越獄率

元宇宙終究沒火過兩年

數字人的AB面：在元宇宙中過氣，在AIGC中重生

不同于傳統數字經濟，元宇宙賦予商業生態更多數字資產價值！

中國虛擬數字人如何橫向拓展市場需求，探索發展場景?

新款英特爾芯片將使NFT鑄造變得更加方便

頭頂光環無數卻估值極低，以太坊這位&——quot;最強殺手&——quot;有望涅槃重生？

NFT 技術將傳世之作帶入博物館

NFT：新騙局的狩獵場

韓國流行音樂巨頭SM與Binance達成NFT合作伙伴關系

最新推薦

元宇宙火熱的當下，我們該如何“身臨其境”的體驗元宇宙？

【量子位】虛擬數字人深度產業報告 | 元宇宙Meta洞見

Web3 去中心化身份管理系統的歷史、現狀與展望

銀保監會：打擊以“元宇宙”為名義的違法行為

a16z：元宇宙辦公會取代實體辦公室嗎？

在元宇宙開會是什么樣一種體驗

猜你喜歡

熱門推薦

相關資訊