快科技8月5日消息,今日,國家安全部發文提醒,人工智能的訓練數據存在良莠不齊的問題,其中不乏虛假信息、虛構內容和偏見性觀點,造成數據源污染,給人工智能安全帶來新的挑戰。
據了解,人工智能的三大核心要素是算法、算力和數據,其中數據是訓練AI模型的基礎要素,也是AI應用的核心資源。
高質量的數據能夠顯著提升模型的準確性和可靠性,但數據一旦受到污染,可能導致模型決策失誤甚至AI系統失效,存在一定的安全隱患。
通過篡改、虛構和重復等“數據投毒”行為產生的污染數據,將干擾模型在訓練階段的參數調整,削弱模型性能、降低其準確性,甚至誘發有害輸出。
研究顯示,當訓練數據集中僅有0.01%的虛假文本時,模型輸出的有害內容會增加11.2%。
即使是0.001%的虛假文本,其有害輸出也會相應上升7.2%。
受到數據污染的人工智能生成的虛假內容,可能成為后續模型訓練的數據源,形成具有延續性的“污染遺留效應”。
當前,互聯網AI生成內容在數量上已遠超人類生產的真實內容,大量低質量及非客觀數據充斥其中,導致AI訓練數據集中的錯誤信息逐代累積,終扭曲模型本身的認知能力。
官方表示,數據污染還可能引發一系列現實風險,尤其在金融市場、公共安全和醫療健康等領域。
在金融領域,不法分子利用AI炮制虛假信息,造成數據污染,可能引發股價異常波動,構成新型市場操縱風險;
在公共安全領域,數據污染容易擾動公眾認知、誤導社會輿論,誘發社會恐慌情緒;
在醫療健康領域,數據污染可能致使模型生成錯誤診療建議,不僅危及患者生命安全,也加劇偽科學的傳播。
本文鏈接:http://www.tebozhan.com/showinfo-17-175571-0.html官方提醒警惕AI“數據投毒” 0.01%虛假訓練文本可致有害內容增加11.2%
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com