AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁(yè) > 元宇宙 > AI

圖像偽造照妖鏡:北大發(fā)布多模態(tài) LLM 圖像篡改檢測(cè)定位框架 FakeShield

來(lái)源: 責(zé)編: 時(shí)間:2024-10-27 08:20:58 33觀看
導(dǎo)讀 北京大學(xué)的研究人員開(kāi)發(fā)了一種新型多模態(tài)框架 FakeShield,能夠檢測(cè)圖像偽造、定位篡改區(qū)域,并提供基于像素和圖像語(yǔ)義錯(cuò)誤的合理解釋,可以提高圖像偽造檢測(cè)的可解釋性和泛化能力。隨著生成式人工智能(AIGC)的迅猛

北京大學(xué)的研究人員開(kāi)發(fā)了一種新型多模態(tài)框架 FakeShield,能夠檢測(cè)圖像偽造、定位篡改區(qū)域,并提供基于像素和圖像語(yǔ)義錯(cuò)誤的合理解釋,可以提高圖像偽造檢測(cè)的可解釋性和泛化能力。CBa28資訊網(wǎng)——每日最新資訊28at.com

CBa28資訊網(wǎng)——每日最新資訊28at.com

隨著生成式人工智能(AIGC)的迅猛發(fā)展,圖像編輯與合成技術(shù)變得愈加成熟與普及。這一趨勢(shì)為圖像內(nèi)容創(chuàng)作帶來(lái)了便捷的同時(shí),也顯著增加了篡改檢測(cè)的難度。CBa28資訊網(wǎng)——每日最新資訊28at.com

用戶能夠通過(guò) Photoshop、DeepFake、AIGC 等工具對(duì)圖像進(jìn)行高質(zhì)量編輯,且往往不留任何痕跡。在此背景下,如何準(zhǔn)確檢測(cè)并定位篡改區(qū)域,成為了學(xué)術(shù)界與工業(yè)界的關(guān)注重點(diǎn)。CBa28資訊網(wǎng)——每日最新資訊28at.com

盡管現(xiàn)有的圖像篡改檢測(cè)與定位(IFDL)算法在網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練策略上取得了一定進(jìn)展,但仍存在幾個(gè)主要問(wèn)題:CBa28資訊網(wǎng)——每日最新資訊28at.com

1. 大多數(shù)方法采用黑箱模型,僅輸出真實(shí)性概率,缺乏詳細(xì)的檢測(cè)解釋,導(dǎo)致用戶對(duì)結(jié)果的信任度降低。CBa28資訊網(wǎng)——每日最新資訊28at.com

2. 現(xiàn)有算法通常針對(duì)特定篡改技術(shù),缺乏應(yīng)對(duì)多樣化篡改手段的能力,降低了實(shí)用性。CBa28資訊網(wǎng)——每日最新資訊28at.com

為了解決這些問(wèn)題,如圖 1 所示,北京大學(xué)與華南理工大學(xué)的研究團(tuán)隊(duì)提出了一種全新的任務(wù):可解釋的圖像偽造檢測(cè)與定位(e-IFDL),并設(shè)計(jì)了一個(gè)新穎的多模態(tài)偽造檢測(cè)定位框架:FakeShield。CBa28資訊網(wǎng)——每日最新資訊28at.com

CBa28資訊網(wǎng)——每日最新資訊28at.com

論文地址:https://arxiv.org/ abs / 2410.02761項(xiàng)目主頁(yè):https://zhipeixu.github.io/ projects / FakeShield/GitHub 地址:https://github.com/ zhipeixu / FakeShield

結(jié)合多模態(tài)大語(yǔ)言模型的視覺(jué)和語(yǔ)言理解能力,實(shí)現(xiàn)在檢測(cè)圖像真實(shí)性,生成篡改區(qū)域掩膜的同時(shí),提供詳細(xì)解釋,進(jìn)而增強(qiáng)了檢測(cè)定位過(guò)程的透明性與泛化性。CBa28資訊網(wǎng)——每日最新資訊28at.com

CBa28資訊網(wǎng)——每日最新資訊28at.com

圖 1:(a) 傳統(tǒng) IFDL 方法,(b) 可解釋的 IFDL 方法

為了解決現(xiàn)有 IFDL 方法的不足,F(xiàn)akeShield 提出了以下主要貢獻(xiàn):CBa28資訊網(wǎng)——每日最新資訊28at.com

1. 提出了首個(gè)多模態(tài)大模型框架用于圖像篡改檢測(cè)與定位,不僅實(shí)現(xiàn)了檢測(cè)與定位過(guò)程的解耦,還提供了合理的判斷依據(jù),解決了現(xiàn)有方法的黑箱問(wèn)題。CBa28資訊網(wǎng)——每日最新資訊28at.com

2. 利用 GPT-4o 豐富現(xiàn)有 IFDL 數(shù)據(jù)集,構(gòu)建了多模態(tài)篡改描述數(shù)據(jù)集(MMTD-Set),通過(guò)關(guān)注不同篡改特征,生成「圖像-掩膜-描述」三元組,提高了模型的分析能力。CBa28資訊網(wǎng)——每日最新資訊28at.com

3. 設(shè)計(jì)了基于領(lǐng)域標(biāo)簽引導(dǎo)的解釋性篡改檢測(cè)模塊(DTE-FDM),在單一模型中檢測(cè)多種篡改類型,緩解了數(shù)據(jù)域沖突問(wèn)題。同時(shí),通過(guò)多模態(tài)篡改定位模塊(MFLM),對(duì)齊視覺(jué)和語(yǔ)言特征,實(shí)現(xiàn)精準(zhǔn)的篡改區(qū)域定位。CBa28資訊網(wǎng)——每日最新資訊28at.com

基于上述創(chuàng)新,F(xiàn)akeShield 不僅提升了篡改檢測(cè)定位的準(zhǔn)確性和解釋性,還顯著增強(qiáng)了模型的適應(yīng)性和實(shí)用性,為圖像篡改檢測(cè)領(lǐng)域提供了一種全面而高效的解決方案。CBa28資訊網(wǎng)——每日最新資訊28at.com

MMTD-Set 數(shù)據(jù)集

如圖 2 所示,我們根據(jù)篡改方法,將篡改圖片分為 PhotoShop、DeepFake、AIGC-Editing 三個(gè)數(shù)據(jù)域。基于現(xiàn)有的 IFDL 數(shù)據(jù)集,我們利用 GPT-4o 生成對(duì)于篡改圖像的分析與描述,構(gòu)建「圖像-掩膜-描述」三元組,以支持模型的多模態(tài)訓(xùn)練。另外,針對(duì)不同篡改類型,我們?cè)O(shè)計(jì)了特定的描述提示,引導(dǎo) GPT 關(guān)注不同的像素偽影和語(yǔ)義錯(cuò)誤。CBa28資訊網(wǎng)——每日最新資訊28at.com

CBa28資訊網(wǎng)——每日最新資訊28at.com

圖 2:MMTD-Set 數(shù)據(jù)集構(gòu)建過(guò)程

在 MMTD-Set 的構(gòu)建過(guò)程中,prompt 設(shè)計(jì)是關(guān)鍵環(huán)節(jié),旨在確保 GPT-4o 能準(zhǔn)確生成與篡改圖像相關(guān)的高質(zhì)量描述。在輸入編輯后的圖像及其二值掩膜時(shí),prompt 的設(shè)計(jì)圍繞兩個(gè)主要方面展開(kāi):篡改區(qū)域的定位和可見(jiàn)細(xì)節(jié)的捕捉。CBa28資訊網(wǎng)——每日最新資訊28at.com

在定位描述中,GPT-4o 需要對(duì)篡改區(qū)域的絕對(duì)位置和相對(duì)位置進(jìn)行清晰表達(dá)。絕對(duì)位置指篡改區(qū)域在整個(gè)圖像中的位置,如「圖像的左上角」或「靠近圖像下半部分」。相對(duì)位置則要求描述篡改區(qū)域與其他物體之間的關(guān)系,如「在桌面上方」或「靠近人群」。這種雙重描述的設(shè)計(jì)可以幫助模型更準(zhǔn)確地感知篡改區(qū)域在圖像中的位置,確保輸出的掩膜與實(shí)際篡改區(qū)域一致。CBa28資訊網(wǎng)——每日最新資訊28at.com

在可見(jiàn)細(xì)節(jié)的捕捉上,prompt 重點(diǎn)關(guān)注多種視覺(jué)異常,這些異常反映了篡改過(guò)程中可能留下的偽影和邏輯錯(cuò)誤。CBa28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于 Photoshop 篡改,prompt 重點(diǎn)關(guān)注像素級(jí)偽影和不自然的邊緣,要求模型檢查光照一致性、像素模糊和分辨率變化,同時(shí)判斷是否違反物理規(guī)律,如缺失的陰影或透視關(guān)系不合理。在 DeepFake 數(shù)據(jù)中,prompt 強(qiáng)調(diào)面部細(xì)節(jié)和語(yǔ)義邏輯,要求模型注意皮膚紋理的連貫性、表情的自然性以及光影的匹配,留意面部對(duì)稱性和眼睛反射的異常。CBa28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于 AIGC 編輯,prompt 聚焦于文字生成和視覺(jué)邏輯,要求分析文字拼寫(xiě)是否正確、排列是否合理,并判斷場(chǎng)景中光影和對(duì)象位置的合理性。這種針對(duì)不同篡改類型的 prompt 設(shè)計(jì)確保了 FakeShield 在檢測(cè)與解釋上的高效性和準(zhǔn)確性。CBa28資訊網(wǎng)——每日最新資訊28at.com

FakeShield 框架

如圖 3 所示,該框架包括域標(biāo)簽引導(dǎo)的可解釋偽造檢測(cè)模塊(Domain Tag-guided Explainable Forgery Detection Module,DTE-FDM)和多模態(tài)偽造定位模塊(Multi-modal Forgery Localization Module,MFLM)兩個(gè)關(guān)鍵部分。CBa28資訊網(wǎng)——每日最新資訊28at.com

DTE-FDM 負(fù)責(zé)圖像偽造檢測(cè)與檢測(cè)結(jié)果分析,利用數(shù)據(jù)域標(biāo)簽(domain tag)彌合不同偽造類型數(shù)據(jù)之間的數(shù)據(jù)域沖突,引導(dǎo)多模態(tài)大語(yǔ)言模型生成檢測(cè)結(jié)果及判定依據(jù)。MFLM 則使用 DTE-FDM 輸出的對(duì)于篡改區(qū)域的描述作為視覺(jué)分割模型的 Prompt,引導(dǎo)其精確定位篡改區(qū)域。CBa28資訊網(wǎng)——每日最新資訊28at.com

CBa28資訊網(wǎng)——每日最新資訊28at.com

圖 3:FakeShield 框架圖

Domain Tag-guided Explainable Forgery Detection Module(DTE-FDM)CBa28資訊網(wǎng)——每日最新資訊28at.com

DTE-FDM 模塊負(fù)責(zé)圖像偽造檢測(cè)與檢測(cè)結(jié)果的分析,通過(guò)生成數(shù)據(jù)域標(biāo)簽(domain tag)來(lái)緩解不同偽造類型數(shù)據(jù)(如 Photoshop 編輯、DeepFake、AIGC 編輯)之間的數(shù)據(jù)域沖突。這些標(biāo)簽引導(dǎo)多模態(tài)大語(yǔ)言模型(LLM)聚焦于各類型篡改的特征,實(shí)現(xiàn)針對(duì)性檢測(cè)與解釋。CBa28資訊網(wǎng)——每日最新資訊28at.com

在檢測(cè)過(guò)程中,輸入圖像 I_ori 通過(guò)數(shù)據(jù)域標(biāo)簽生成器 G_dt 分配特定標(biāo)簽 T_tag,表明該圖像的偽造類型。接著,圖像經(jīng)過(guò)編碼器 F_enc 和線性投影層 F_proj 轉(zhuǎn)化為特征向量 T_img。CBa28資訊網(wǎng)——每日最新資訊28at.com

這些圖像特征與指令文本 T_ins 一并輸入 LLM,生成檢測(cè)結(jié)果 O_det,包括是否篡改、具體的篡改區(qū)域描述以及解釋性分析。CBa28資訊網(wǎng)——每日最新資訊28at.com

具體過(guò)程如下:CBa28資訊網(wǎng)——每日最新資訊28at.com

CBa28資訊網(wǎng)——每日最新資訊28at.com

DTE-FDM 不僅判斷圖像的真實(shí)性,還根據(jù)不同偽造類型生成詳細(xì)的判定依據(jù),包括光照一致性、邊緣偽影、分辨率差異等。這種設(shè)計(jì)確保模型能夠應(yīng)對(duì)多樣化的偽造場(chǎng)景,增強(qiáng)了檢測(cè)的準(zhǔn)確性和解釋性,使 FakeShield 在應(yīng)對(duì)復(fù)雜篡改任務(wù)時(shí)具有更強(qiáng)的泛化能力與實(shí)用性。CBa28資訊網(wǎng)——每日最新資訊28at.com

Multi-modal Forgery Localization Module(MFLM)CBa28資訊網(wǎng)——每日最新資訊28at.com

MFLM 模塊負(fù)責(zé)精準(zhǔn)定位圖像中的篡改區(qū)域,通過(guò)多模態(tài)特征對(duì)齊的方式將文本和視覺(jué)信息融合,從而生成準(zhǔn)確的篡改掩膜。MFLM 的設(shè)計(jì)旨在解決僅依賴單一模態(tài)信息所帶來(lái)的定位不準(zhǔn)確問(wèn)題,增強(qiáng)對(duì)復(fù)雜篡改區(qū)域的識(shí)別能力。CBa28資訊網(wǎng)——每日最新資訊28at.com

在 MFLM 中,輸入的圖像 I_ori 經(jīng)過(guò) Tamper Comprehension Module (TCM)編碼,將圖像特征與解釋性文本 O_det 進(jìn)行對(duì)齊。對(duì)齊后的嵌入表示通過(guò)多層感知機(jī)(MLP)投影為特殊的令牌嵌入用于指導(dǎo)分割模型生成篡改區(qū)域掩膜,用于指導(dǎo)分割模型生成篡改區(qū)域掩膜 M_loc。CBa28資訊網(wǎng)——每日最新資訊28at.com

整個(gè)過(guò)程如下:CBa28資訊網(wǎng)——每日最新資訊28at.com

CBa28資訊網(wǎng)——每日最新資訊28at.com

其中,S_enc 和 S_dec 分別為圖像的編碼器與解碼器,Extract (?) 為提取嵌入的操作,通過(guò)上述步驟,MFLM 利用文本描述和圖像特征的對(duì)齊生成準(zhǔn)確的二值掩膜。CBa28資訊網(wǎng)——每日最新資訊28at.com

此外,MFLM 使用了 LoRA 微調(diào)技術(shù),對(duì)模型進(jìn)行輕量化優(yōu)化,提高了處理效率并降低了計(jì)算成本。與單一模態(tài)分割方法相比,這種多模態(tài)交互的設(shè)計(jì)使得 MFLM 能夠應(yīng)對(duì)更加復(fù)雜的篡改場(chǎng)景,如光照不一致、透視錯(cuò)誤和對(duì)象拼接,從而顯著提升篡改區(qū)域的定位準(zhǔn)確性。CBa28資訊網(wǎng)——每日最新資訊28at.com

實(shí)驗(yàn)結(jié)果

我們對(duì) FakeShield 與多種 IFDL 方法和多模態(tài)大語(yǔ)言模型(MLLM)在檢測(cè)、解釋和定位方面的性能進(jìn)行了全面對(duì)比。為了確保結(jié)果的公平性,所有 IFDL 方法均在與 FakeShield 相同的數(shù)據(jù)集上進(jìn)行了訓(xùn)練和測(cè)試。CBa28資訊網(wǎng)——每日最新資訊28at.com

這一比較覆蓋了 Photoshop、DeepFake 以及 AIGC 編輯等多種篡改場(chǎng)景,全面評(píng)估了各模型在多模態(tài)信息融合和復(fù)雜篡改檢測(cè)中的表現(xiàn)。CBa28資訊網(wǎng)——每日最新資訊28at.com

檢測(cè)性能對(duì)比

我們與 MVSS-Net,CAT-Net 等其他先進(jìn)的 IFDL 方法進(jìn)行了檢測(cè)性能的對(duì)比,結(jié)果如表 1 所示。實(shí)驗(yàn)結(jié)果表明,F(xiàn)akeShield 在 Photoshop、DeepFake 和 AIGC 編輯等數(shù)據(jù)集上的檢測(cè)準(zhǔn)確率(ACC)和 F1 分?jǐn)?shù)均顯著優(yōu)于其他方法。通過(guò)引入域標(biāo)簽引導(dǎo)策略(domain-tag guidance),F(xiàn)akeShield 能夠有效處理多種篡改類型,增強(qiáng)跨領(lǐng)域的泛化能力。CBa28資訊網(wǎng)——每日最新資訊28at.com

CBa28資訊網(wǎng)——每日最新資訊28at.com

表 1:FakeShield 與主流 IFDL 方法的定位性能比較解釋性能對(duì)比

我們通過(guò)與預(yù)訓(xùn)練的多模態(tài)大語(yǔ)言模型(M-LLMs)在 Photoshop、DeepFake 和 AIGC 編輯數(shù)據(jù)集上的表現(xiàn)進(jìn)行對(duì)比,評(píng)估了 FakeShield 的解釋能力,結(jié)果如表 2 所示。CBa28資訊網(wǎng)——每日最新資訊28at.com

我們采用余弦語(yǔ)義相似度(CSS)作為衡量指標(biāo),F(xiàn)akeShield 在各項(xiàng)測(cè)試中均取得了最高分?jǐn)?shù),展現(xiàn)了其生成準(zhǔn)確且詳細(xì)篡改區(qū)域描述的能力。這表明,F(xiàn)akeShield 能夠在復(fù)雜的篡改場(chǎng)景中生成與真實(shí)情況高度一致的解釋性描述,大幅提升了模型在檢測(cè)過(guò)程中的可解釋性與透明度。CBa28資訊網(wǎng)——每日最新資訊28at.com

CBa28資訊網(wǎng)——每日最新資訊28at.com

表 2:FakeShield 與主流通用 MLLM 方法的解釋性能比較定位性能對(duì)比

我們通過(guò)與其他先進(jìn)的 IFDL 方法在 Photoshop 和 AIGC 編輯等數(shù)據(jù)集上的表現(xiàn)進(jìn)行對(duì)比,評(píng)估了 FakeShield 在篡改區(qū)域定位方面的能力,結(jié)果如表 3 所示。實(shí)驗(yàn)結(jié)果表明,F(xiàn)akeShield 在大多數(shù)測(cè)試集中均取得了最高的 IoU 和 F1 分?jǐn)?shù)。CBa28資訊網(wǎng)——每日最新資訊28at.com

CBa28資訊網(wǎng)——每日最新資訊28at.com

表 3:FakeShield 與主流 IFDL 方法的定位性能比較

另外,圖 4 的主觀結(jié)果對(duì)比也表明,F(xiàn)akeShield 能夠生成更加清晰且精確的篡改區(qū)域分割,準(zhǔn)確捕捉邊界,而其他方法如 PSCC-Net 則容易產(chǎn)生模糊且過(guò)于寬泛的預(yù)測(cè)。CBa28資訊網(wǎng)——每日最新資訊28at.com

CBa28資訊網(wǎng)——每日最新資訊28at.com

圖 4:FakeShield 與主流 IFDL 方法的定位性能的定性比較

參考資料:CBa28資訊網(wǎng)——每日最新資訊28at.com

https://arxiv.org/abs/2410.02761CBa28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-9260-0.html圖像偽造照妖鏡:北大發(fā)布多模態(tài) LLM 圖像篡改檢測(cè)定位框架 FakeShield

聲明:本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 鴻蒙APP亮相,對(duì)比安卓iOS,體驗(yàn)有何不同?

下一篇: “稚暉君”創(chuàng)業(yè)項(xiàng)目,智元機(jī)器人宣布靈犀 X1 面向全球開(kāi)源

標(biāo)簽:
  • 熱門焦點(diǎn)
  • 數(shù)字人的新革命,BAT的“沖高”戰(zhàn)場(chǎng)

    來(lái)源:劉曠ChatGPT橫空出世,讓人們看到了數(shù)字人的另一種可能,將ChatGPT與虛擬數(shù)字人融合,研發(fā)出更加智能化、擬人化的虛擬數(shù)字人成為數(shù)字人廠商的新命題、新方向。2月份,嶺南股份
  • 大廠元宇宙,又菜又愛(ài)玩

    撰文 | 吳先之 編輯 | 王 潘當(dāng)下所有大廠推出的元宇宙產(chǎn)品,所能帶來(lái)的沉浸式體驗(yàn)并不多,好在國(guó)內(nèi)外科技巨頭在bug方面都處在同一水平線。以Meta為例,由于VR頭顯設(shè)
  • 避坑指南:遠(yuǎn)離具有這些特性的NFT

    關(guān)于NFT,在我們的文章中一直以來(lái)都是常駐嘉賓,不止因?yàn)镹FT背后隱藏的潛力,更因?yàn)樵谶@個(gè)NFT世界里冥冥之中仿佛有一雙幕后的手,OpenSea、庫(kù)里、ERC115、視覺(jué)中國(guó)、
  • 區(qū)塊鏈產(chǎn)業(yè)人才發(fā)展報(bào)告

    工業(yè)和信息化部作為工業(yè)和信息化行業(yè)主管部門,正在著力推進(jìn)“兩個(gè)強(qiáng)國(guó)”建設(shè),加快推動(dòng)以區(qū)塊鏈為代表的新興技術(shù)與實(shí)體經(jīng)濟(jì)深度融合。我國(guó)區(qū)塊鏈技術(shù)和應(yīng)用想要
  • 國(guó)內(nèi)涌現(xiàn)70余家數(shù)字藏品平臺(tái):合規(guī)、流量與利潤(rùn)在博弈

    作者:楊鄭君2月16日,迅雷鏈企業(yè)數(shù)字藏品服務(wù)平臺(tái)正式上線,繼阿里、騰訊、京東、百度、網(wǎng)易等之后,又一家互聯(lián)網(wǎng)企業(yè)正式加入到火熱的數(shù)字藏品平臺(tái)的競(jìng)爭(zhēng)中。除互聯(lián)
  • NFT也有黃牛?這家公司專門對(duì)付外掛作弊機(jī)器人

    澳大利亞前總理馬爾科姆·特恩布爾 (Malcolm Turnbull) 是支持薩姆·Crowther (Sam Crowther) 的人之一,Sam是一名出生于紐卡斯?fàn)柕暮诳停穆殬I(yè)生涯始于為國(guó)防
  • 在元宇宙開(kāi)會(huì)是什么樣一種體驗(yàn)

    空間就是一切還記得面對(duì)面的會(huì)議嗎?就在不久前,與會(huì)者需要飛到遙遠(yuǎn)的目的地,并進(jìn)行鼓舞人心的對(duì)話、網(wǎng)絡(luò)、免費(fèi)食物,甚至可能會(huì)有一兩個(gè)很好的小組討論。隨之而來(lái)
  • 頂級(jí)NFT收藏家Gary Vaynerchuk 與百威推出NFT

    特別聲明,我們的文章不作為投資建議,請(qǐng)各位讀者獨(dú)立思考,還是那句話:投資要慎之又慎,誰(shuí)也不要相信。Gary Verneychuk 和百威 NFT 之一。由 VeynerNFT 提供百威推出
  • 從概念到落地 Web3.0初具雛形

    加密資產(chǎn)熱潮催生出的鏈上應(yīng)用中,除了DeFi、NFT、鏈游GameFi等場(chǎng)景外,還有一個(gè)熱詞叫「Web3.0」。Web3.0的概念最早出現(xiàn)在2014年,由以太坊聯(lián)合創(chuàng)始人及波卡創(chuàng)建者
Top