當前位置：首頁 > 元宇宙 > AI

圖像偽造照妖鏡：北大發(fā)布多模態(tài) LLM 圖像篡改檢測定位框架 FakeShield

來源：責編：時間：2024-10-27 08:20:58 73觀看

導讀北京大學的研究人員開發(fā)了一種新型多模態(tài)框架 FakeShield，能夠檢測圖像偽造、定位篡改區(qū)域，并提供基于像素和圖像語義錯誤的合理解釋，可以提高圖像偽造檢測的可解釋性和泛化能力。隨著生成式人工智能（AIGC）的迅猛

北京大學的研究人員開發(fā)了一種新型多模態(tài)框架 FakeShield，能夠檢測圖像偽造、定位篡改區(qū)域，并提供基于像素和圖像語義錯誤的合理解釋，可以提高圖像偽造檢測的可解釋性和泛化能力。

隨著生成式人工智能（AIGC）的迅猛發(fā)展，圖像編輯與合成技術(shù)變得愈加成熟與普及。這一趨勢為圖像內(nèi)容創(chuàng)作帶來了便捷的同時，也顯著增加了篡改檢測的難度。

用戶能夠通過 Photoshop、DeepFake、AIGC 等工具對圖像進行高質(zhì)量編輯，且往往不留任何痕跡。在此背景下，如何準確檢測并定位篡改區(qū)域，成為了學術(shù)界與工業(yè)界的關(guān)注重點。

盡管現(xiàn)有的圖像篡改檢測與定位（IFDL）算法在網(wǎng)絡(luò)結(jié)構(gòu)和訓練策略上取得了一定進展，但仍存在幾個主要問題：

1. 大多數(shù)方法采用黑箱模型，僅輸出真實性概率，缺乏詳細的檢測解釋，導致用戶對結(jié)果的信任度降低。

2. 現(xiàn)有算法通常針對特定篡改技術(shù)，缺乏應對多樣化篡改手段的能力，降低了實用性。

為了解決這些問題，如圖 1 所示，北京大學與華南理工大學的研究團隊提出了一種全新的任務：可解釋的圖像偽造檢測與定位（e-IFDL），并設(shè)計了一個新穎的多模態(tài)偽造檢測定位框架：FakeShield。

論文地址：https://arxiv.org/ abs / 2410.02761項目主頁：https://zhipeixu.github.io/ projects / FakeShield/GitHub 地址：https://github.com/ zhipeixu / FakeShield

結(jié)合多模態(tài)大語言模型的視覺和語言理解能力，實現(xiàn)在檢測圖像真實性，生成篡改區(qū)域掩膜的同時，提供詳細解釋，進而增強了檢測定位過程的透明性與泛化性。

圖 1：(a) 傳統(tǒng) IFDL 方法，(b) 可解釋的 IFDL 方法

為了解決現(xiàn)有 IFDL 方法的不足，F(xiàn)akeShield 提出了以下主要貢獻：

1. 提出了首個多模態(tài)大模型框架用于圖像篡改檢測與定位，不僅實現(xiàn)了檢測與定位過程的解耦，還提供了合理的判斷依據(jù)，解決了現(xiàn)有方法的黑箱問題。

2. 利用 GPT-4o 豐富現(xiàn)有 IFDL 數(shù)據(jù)集，構(gòu)建了多模態(tài)篡改描述數(shù)據(jù)集（MMTD-Set），通過關(guān)注不同篡改特征，生成「圖像-掩膜-描述」三元組，提高了模型的分析能力。

3. 設(shè)計了基于領(lǐng)域標簽引導的解釋性篡改檢測模塊（DTE-FDM），在單一模型中檢測多種篡改類型，緩解了數(shù)據(jù)域沖突問題。同時，通過多模態(tài)篡改定位模塊（MFLM），對齊視覺和語言特征，實現(xiàn)精準的篡改區(qū)域定位。

基于上述創(chuàng)新，F(xiàn)akeShield 不僅提升了篡改檢測定位的準確性和解釋性，還顯著增強了模型的適應性和實用性，為圖像篡改檢測領(lǐng)域提供了一種全面而高效的解決方案。

MMTD-Set 數(shù)據(jù)集

如圖 2 所示，我們根據(jù)篡改方法，將篡改圖片分為 PhotoShop、DeepFake、AIGC-Editing 三個數(shù)據(jù)域?；诂F(xiàn)有的 IFDL 數(shù)據(jù)集，我們利用 GPT-4o 生成對于篡改圖像的分析與描述，構(gòu)建「圖像-掩膜-描述」三元組，以支持模型的多模態(tài)訓練。另外，針對不同篡改類型，我們設(shè)計了特定的描述提示，引導 GPT 關(guān)注不同的像素偽影和語義錯誤。

圖 2：MMTD-Set 數(shù)據(jù)集構(gòu)建過程

在 MMTD-Set 的構(gòu)建過程中，prompt 設(shè)計是關(guān)鍵環(huán)節(jié)，旨在確保 GPT-4o 能準確生成與篡改圖像相關(guān)的高質(zhì)量描述。在輸入編輯后的圖像及其二值掩膜時，prompt 的設(shè)計圍繞兩個主要方面展開：篡改區(qū)域的定位和可見細節(jié)的捕捉。

在定位描述中，GPT-4o 需要對篡改區(qū)域的絕對位置和相對位置進行清晰表達。絕對位置指篡改區(qū)域在整個圖像中的位置，如「圖像的左上角」或「靠近圖像下半部分」。相對位置則要求描述篡改區(qū)域與其他物體之間的關(guān)系，如「在桌面上方」或「靠近人群」。這種雙重描述的設(shè)計可以幫助模型更準確地感知篡改區(qū)域在圖像中的位置，確保輸出的掩膜與實際篡改區(qū)域一致。

在可見細節(jié)的捕捉上，prompt 重點關(guān)注多種視覺異常，這些異常反映了篡改過程中可能留下的偽影和邏輯錯誤。

對于 Photoshop 篡改，prompt 重點關(guān)注像素級偽影和不自然的邊緣，要求模型檢查光照一致性、像素模糊和分辨率變化，同時判斷是否違反物理規(guī)律，如缺失的陰影或透視關(guān)系不合理。在 DeepFake 數(shù)據(jù)中，prompt 強調(diào)面部細節(jié)和語義邏輯，要求模型注意皮膚紋理的連貫性、表情的自然性以及光影的匹配，留意面部對稱性和眼睛反射的異常。

對于 AIGC 編輯，prompt 聚焦于文字生成和視覺邏輯，要求分析文字拼寫是否正確、排列是否合理，并判斷場景中光影和對象位置的合理性。這種針對不同篡改類型的 prompt 設(shè)計確保了 FakeShield 在檢測與解釋上的高效性和準確性。

FakeShield 框架

如圖 3 所示，該框架包括域標簽引導的可解釋偽造檢測模塊（Domain Tag-guided Explainable Forgery Detection Module，DTE-FDM）和多模態(tài)偽造定位模塊（Multi-modal Forgery Localization Module，MFLM）兩個關(guān)鍵部分。

DTE-FDM 負責圖像偽造檢測與檢測結(jié)果分析，利用數(shù)據(jù)域標簽（domain tag）彌合不同偽造類型數(shù)據(jù)之間的數(shù)據(jù)域沖突，引導多模態(tài)大語言模型生成檢測結(jié)果及判定依據(jù)。MFLM 則使用 DTE-FDM 輸出的對于篡改區(qū)域的描述作為視覺分割模型的 Prompt，引導其精確定位篡改區(qū)域。

圖 3：FakeShield 框架圖

Domain Tag-guided Explainable Forgery Detection Module（DTE-FDM）

DTE-FDM 模塊負責圖像偽造檢測與檢測結(jié)果的分析，通過生成數(shù)據(jù)域標簽（domain tag）來緩解不同偽造類型數(shù)據(jù)（如 Photoshop 編輯、DeepFake、AIGC 編輯）之間的數(shù)據(jù)域沖突。這些標簽引導多模態(tài)大語言模型（LLM）聚焦于各類型篡改的特征，實現(xiàn)針對性檢測與解釋。

在檢測過程中，輸入圖像 I_ori 通過數(shù)據(jù)域標簽生成器 G_dt 分配特定標簽 T_tag，表明該圖像的偽造類型。接著，圖像經(jīng)過編碼器 F_enc 和線性投影層 F_proj 轉(zhuǎn)化為特征向量 T_img。

這些圖像特征與指令文本 T_ins 一并輸入 LLM，生成檢測結(jié)果 O_det，包括是否篡改、具體的篡改區(qū)域描述以及解釋性分析。

具體過程如下：

DTE-FDM 不僅判斷圖像的真實性，還根據(jù)不同偽造類型生成詳細的判定依據(jù)，包括光照一致性、邊緣偽影、分辨率差異等。這種設(shè)計確保模型能夠應對多樣化的偽造場景，增強了檢測的準確性和解釋性，使 FakeShield 在應對復雜篡改任務時具有更強的泛化能力與實用性。

Multi-modal Forgery Localization Module（MFLM）

MFLM 模塊負責精準定位圖像中的篡改區(qū)域，通過多模態(tài)特征對齊的方式將文本和視覺信息融合，從而生成準確的篡改掩膜。MFLM 的設(shè)計旨在解決僅依賴單一模態(tài)信息所帶來的定位不準確問題，增強對復雜篡改區(qū)域的識別能力。

在 MFLM 中，輸入的圖像 I_ori 經(jīng)過 Tamper Comprehension Module (TCM)編碼，將圖像特征與解釋性文本 O_det 進行對齊。對齊后的嵌入表示通過多層感知機（MLP）投影為特殊的令牌嵌入用于指導分割模型生成篡改區(qū)域掩膜，用于指導分割模型生成篡改區(qū)域掩膜 M_loc。

整個過程如下：

其中，S_enc 和 S_dec 分別為圖像的編碼器與解碼器，Extract (?) 為提取嵌入的操作，通過上述步驟，MFLM 利用文本描述和圖像特征的對齊生成準確的二值掩膜。

此外，MFLM 使用了 LoRA 微調(diào)技術(shù)，對模型進行輕量化優(yōu)化，提高了處理效率并降低了計算成本。與單一模態(tài)分割方法相比，這種多模態(tài)交互的設(shè)計使得 MFLM 能夠應對更加復雜的篡改場景，如光照不一致、透視錯誤和對象拼接，從而顯著提升篡改區(qū)域的定位準確性。

實驗結(jié)果

我們對 FakeShield 與多種 IFDL 方法和多模態(tài)大語言模型（MLLM）在檢測、解釋和定位方面的性能進行了全面對比。為了確保結(jié)果的公平性，所有 IFDL 方法均在與 FakeShield 相同的數(shù)據(jù)集上進行了訓練和測試。

這一比較覆蓋了 Photoshop、DeepFake 以及 AIGC 編輯等多種篡改場景，全面評估了各模型在多模態(tài)信息融合和復雜篡改檢測中的表現(xiàn)。

檢測性能對比

我們與 MVSS-Net，CAT-Net 等其他先進的 IFDL 方法進行了檢測性能的對比，結(jié)果如表 1 所示。實驗結(jié)果表明，F(xiàn)akeShield 在 Photoshop、DeepFake 和 AIGC 編輯等數(shù)據(jù)集上的檢測準確率（ACC）和 F1 分數(shù)均顯著優(yōu)于其他方法。通過引入域標簽引導策略（domain-tag guidance），F(xiàn)akeShield 能夠有效處理多種篡改類型，增強跨領(lǐng)域的泛化能力。

表 1：FakeShield 與主流 IFDL 方法的定位性能比較解釋性能對比

我們通過與預訓練的多模態(tài)大語言模型（M-LLMs）在 Photoshop、DeepFake 和 AIGC 編輯數(shù)據(jù)集上的表現(xiàn)進行對比，評估了 FakeShield 的解釋能力，結(jié)果如表 2 所示。

我們采用余弦語義相似度（CSS）作為衡量指標，F(xiàn)akeShield 在各項測試中均取得了最高分數(shù)，展現(xiàn)了其生成準確且詳細篡改區(qū)域描述的能力。這表明，F(xiàn)akeShield 能夠在復雜的篡改場景中生成與真實情況高度一致的解釋性描述，大幅提升了模型在檢測過程中的可解釋性與透明度。

表 2：FakeShield 與主流通用 MLLM 方法的解釋性能比較定位性能對比

我們通過與其他先進的 IFDL 方法在 Photoshop 和 AIGC 編輯等數(shù)據(jù)集上的表現(xiàn)進行對比，評估了 FakeShield 在篡改區(qū)域定位方面的能力，結(jié)果如表 3 所示。實驗結(jié)果表明，F(xiàn)akeShield 在大多數(shù)測試集中均取得了最高的 IoU 和 F1 分數(shù)。

表 3：FakeShield 與主流 IFDL 方法的定位性能比較

另外，圖 4 的主觀結(jié)果對比也表明，F(xiàn)akeShield 能夠生成更加清晰且精確的篡改區(qū)域分割，準確捕捉邊界，而其他方法如 PSCC-Net 則容易產(chǎn)生模糊且過于寬泛的預測。

圖 4：FakeShield 與主流 IFDL 方法的定位性能的定性比較

參考資料：

https://arxiv.org/abs/2410.02761

本文鏈接：http://www.tebozhan.com/showinfo-45-9260-0.html圖像偽造照妖鏡：北大發(fā)布多模態(tài) LLM 圖像篡改檢測定位框架 FakeShield

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：鴻蒙APP亮相，對比安卓iOS，體驗有何不同？

下一篇： “稚暉君”創(chuàng)業(yè)項目，智元機器人宣布靈犀 X1 面向全球開源

標簽：

熱門焦點

關(guān)于年度熱詞NFT，除了錢，我們還可以聊點啥？

每到年底，社交媒體總少不了年度盤點、年度總結(jié)、年度熱詞。如果讓你來總結(jié)2021年度熱詞，你會想到什么？柯林斯詞典將年度熱詞頒給了“NFT”，而其理由是：一個縮寫詞的
“虛擬人”角斗場，基于“硬實力”下的人性平衡法則？

在打工人“反內(nèi)卷”的當下，一眾虛擬人卻“內(nèi)卷”了起來。從北京春晚虛擬人蘇小妹與劉宇演繹歌舞《星河入夢》，央美畢業(yè)的虛擬人夏語冰登上央視節(jié)目《對話》，湖南
Niantic與索尼在音頻AR領(lǐng)域達成合作；?蘋果為Apple Park申請形象化商標

今日熱點：迪士尼任命新高管負責元宇宙業(yè)務；iFixit成為Valve Index VR頭顯和Steam Deck首家零件銷售商；Niantic與索尼達成合作，將為AR游戲《Ingress》帶來音頻體驗；V
全面擁抱“虛擬世界”，摩登天空要打造“音樂元宇宙”

作者：袁佳琦沈黎暉不怎么打游戲，但許多事兒在他眼里都“有意思”。好玩，有意思，是他的口頭禪，在接受娛樂獨角獸的采訪過程中，他多次提到，做虛擬音樂人，“是件挺好玩的
本周NFT領(lǐng)域重要資訊回顧

NFT在蘇富比拍賣是一波三折的嗎？其實不完全如此，但本周在蘇富比拍賣行發(fā)生了一系列有趣的事。與此同時，美聯(lián)社因其最新的NFT銷售被推到了風口浪尖，而Opensea正面臨
量子計算在未來能否提高區(qū)塊鏈技術(shù)的效率

區(qū)塊鏈技術(shù)的主要成功之處在于對不透明的金融流程進行了去中心化的訪問量子計算機的內(nèi)在目標是解決傳統(tǒng)計算機不可能解決的問題隨著區(qū)塊鏈技術(shù)的使用案例逐漸
頭像類NFTs的統(tǒng)治能持續(xù)多久？

在過去的一兩年里，NFTs在互聯(lián)網(wǎng)世界中掀起了一場風暴。今天，當我們想到NFTs時，我們主要想到的是那些充斥著我們的社交媒體屏幕的數(shù)字卡通--無聊猿、punks 和介于
MR——元宇宙平臺的下一代入口

作為“元宇宙”的領(lǐng)頭羊，Meta的一舉一動都受到業(yè)內(nèi)的高度關(guān)注。華爾街見聞提及，2月17日周四，F(xiàn)acebook母公司Meta在透露，其混合現(xiàn)實技術(shù)（MR）將在幾年后實現(xiàn)，讓人們對元
我們離元宇宙的實現(xiàn)只差一副眼鏡？

近日的蘋果春季新品發(fā)布會，想必許多人都守在了屏幕前，就為等待傳說中的首款AR Glass。在發(fā)布會之前，蘋果全球營銷主管Greg Joswiak曾在Twitter上分享了一段短視頻

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區(qū)塊鏈

虛擬人

AR/VR

AI

元宇宙百科

圖像偽造照妖鏡：北大發(fā)布多模態(tài) LLM 圖像篡改檢測定位框架 FakeShield

關(guān)于年度熱詞NFT，除了錢，我們還可以聊點啥？

“虛擬人”角斗場，基于“硬實力”下的人性平衡法則？

Niantic與索尼在音頻AR領(lǐng)域達成合作；?蘋果為Apple Park申請形象化商標

全面擁抱“虛擬世界”，摩登天空要打造“音樂元宇宙”

本周NFT領(lǐng)域重要資訊回顧

量子計算在未來能否提高區(qū)塊鏈技術(shù)的效率

頭像類NFTs的統(tǒng)治能持續(xù)多久？

MR——元宇宙平臺的下一代入口

我們離元宇宙的實現(xiàn)只差一副眼鏡？

最新推薦

清華、北大等86所高校布局元宇宙，是風口還是噱頭？

搶先推出“元宇宙”飲料，可口可樂贏麻了

元宇宙風口下，視覺中國如何重估？

銀保監(jiān)會：打擊以“元宇宙”為名義的違法行為

量子計算在未來能否提高區(qū)塊鏈技術(shù)的效率

對諷刺無動于衷，Nori將碳市場放在區(qū)塊鏈上

猜你喜歡

熱門推薦

相關(guān)資訊