4 月 24 日消息,Anthropic 昨日(4 月 23 日)發布博文,報告稱 Claude 等前沿 AI 模型正被惡意行為者濫用,涉及“輿論引導服務”(influence-as-a-service)操作、憑證填充、招聘詐騙及惡意軟件開發等活動。
Anthropic 開發團隊為 Claude 采取了多項安全措施,成功阻止了許多有害輸出,但威脅行為者仍在嘗試繞過這些保護。援引博文介紹,報告通過多個案例,揭示了惡意行為者如何利用 AI 技術進行復雜操作,包括政治影響力操控、憑證竊取、招聘詐騙及惡意軟件開發。
其中最值得關注的一個案例,就是一個營利組織在 X 和 Facebook 上創建了超過 100 個虛假賬號,完全無人為干預,能使用多種語言發表評論,偽裝成真實用戶,成功與數萬名真實用戶互動,傳播政治偏見的敘事內容。
另一個案例涉及憑證填充操作,惡意行為者利用 Claude 增強系統,識別并處理與安全攝像頭相關的泄露用戶名和密碼,同時搜集互聯網目標信息以測試這些憑證。
報告還發現,一名技術能力有限的用戶,通過 Claude 開發出超出其技能水平的惡意軟件。這些案例均未確認實際部署成功,但顯示出 AI 如何降低惡意行為的門檻。
研究團隊通過 Clio 和分層摘要等技術,分析大量對話數據,識別濫用模式,并結合分類器檢測潛在有害請求,成功封禁相關賬戶。團隊強調,隨著 AI 系統功能增強,半自主復雜濫用系統可能愈發普遍。
本文鏈接:http://www.tebozhan.com/showinfo-45-12583-0.htmlAnthropic 示警:Claude 等 AI 被濫用,引導輿論威脅公眾認知
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com