當前位置：首頁 > 科技 > 軟件

多模態LLM幻覺問題降低30%！業內首個“啄木鳥”免重訓方法誕生

來源：責編：時間：2023-10-29 21:45:43 346觀看

導讀還在用指令微調解決多模態大模型的“幻覺”問題嗎？比如下圖中模型將橙色柯基錯認為“紅狗”，還指出周圍還有幾條。圖片現在，中科大的一項研究想到了一個全新辦法：一個免重訓、即插即用的通用架構，直接從模型給出的錯誤文本

還在用指令微調解決多模態大模型的“幻覺”問題嗎？

比如下圖中模型將橙色柯基錯認為“紅狗”，還指出周圍還有幾條。

圖片

現在，中科大的一項研究想到了一個全新辦法：

一個免重訓、即插即用的通用架構，直接從模型給出的錯誤文本下手，“倒推”出可能出現“幻覺”之處，然后與圖片確定事實，最終直接完成修正。

他們將這個方法命名為“啄木鳥”（Woodpecker）。

圖片

就像這位所謂的“森林醫生”先找出樹木的蟲洞再吃掉里面的蟲子一樣，本文中所提出的“啄木鳥”也是多模態大模型們的“幻覺”醫生，能夠將問題先診斷出來再一一糾正。

結果是“醫術確實高明”，成功將：

（1）MiniGPT-4的準確性從54.67%提高到了85.33%；

（2）mPLUG Ow的準確性從62%提到了86.33%。

如下圖所示，各種難以檢測到的小對象、復雜的計數場景，它都能沒問題。

圖片

那么，它具體是如何診斷的呢？

“啄木鳥法”治療多模態LLM幻覺

目前，業內對于大模型幻覺問題的解決辦法基本都是用特定數據進行指令微調。

比如說，一些多模態大模型（MLLM）在回答問題時總是傾向于肯定答案（eg. 面對一個光頭人物圖，問它頭發是什么顏色，張口就說“黑”），那么我們再喂給模型一些包含負樣本的數據，就能解決它“無中生有”的幻覺，遇到沒有的就說“no”。

除了指令微調，也有的會進行架構調整，反正都要重新訓練一個新的模型。

本文提出的“啄木鳥”框架，是業內第一個無需此操作就能解決“幻覺”的全新辦法。

它一共分為5個步驟，每一步都采用了清晰透明的設計方式，因此具備良好的可解釋性。

圖片

具體而言：

第一步，關鍵概念提取。

指找出模型給出的答案中提到的主要對象，即最有可能解除“幻覺”的元素。

例如對于下圖，多模態大模型最開始可能描述圖中有一輛自行車停在一個垃圾桶旁邊，還說圖上有幾個人從垃圾桶旁邊走過。

圖片

那么，我們就可以得到三個關鍵概念：自行車、垃圾桶和人。

第二步，問題構造。

指在獲取關鍵概念后，圍繞它們提出一些問題有助于檢驗“幻覺”所在的問題。

可主要分為對象層面和屬性層面，前者可以問“圖中有幾輛自行車？”，后者可問“垃圾桶位于什么位置？”。

在此，由于屬性問題比較依賴于上下文，作者也用了一些帶有上下文的例子來提示模型，以便提出的問題更有意義

第三步，視覺驗證。

指引用專家模型回答上步提出的所有問題，方便后續校正。

對于對象層面的問題，例如我們利用GroundingDINO來進行目標檢測，確定關鍵目標是否存在以及關鍵目標的數量。

對于屬性問題，則用BLIP-2來搞定。這類傳統VQA模型輸出答案的長度有限，"幻覺"問題更少。

第四步，視覺斷言生成。

簡單來說，就是基于于前兩步中獲得的問題以及對應的視覺信息，合成結構化的“視覺斷言”。

格式如下：

圖片

最后，“幻覺”糾正。

即根據上步的總結比對模型原始的輸出，得出新的答案。

具體實施環節中，“啄木鳥”采用GPT-3.5-turbo來完成關鍵概念提取、提問和最后一步的糾正。

由于一些多模態模型的指令跟隨能力較弱，導致結果可能輸出無關文本（例如表情、特殊符號），再加上有時一些模型只輸出一個“是”或“否”，這讓實際的校正過程也面臨挑戰。

不過，我們兩個簡單措施就可以搞定：

（1）將模型回答的“是”或“否”與“啄木鳥”給出的答案組合起來，比如“是的，圖像中有一只狗”，就不怕模型原本只是給出一個簡單的“yes or no”逃過校正了。

（2）在校正過程中，將原始問題添加到LLM，以便LLM更好地掌握文本和任務要求。

效果驗證：幻覺減少30%

整個方法看起來非常好理解，效果如何呢？

在此，作者在POPE、MME和LLaVA-QA90數據集上進行了全面的定量和定性實驗。

基線模型選用這四個主流多模態大模型：

MiniGPT-4、mPLUG Owl、LLaVA和Otter。

最終，POPE數據集上的結果如下：

（w/Ours表示由“啄木鳥”校正的MLLM響應，x為未采用，對勾為采用）

可以看到，“啄木鳥”都能給這幾個模型帶來不同程度的提升，同時大幅降低模型回答“yes”的概率。

其中在隨機設定下，它給MiniGPT-4和mPLUG-Owl和在準確率指標上分別帶來了30.66%和24.33%的提升。

圖片

在更全面的MME數據集上，“啄木鳥”也有效減少了多模態大模型在對象級和屬性級層面的“幻覺”，也就是某物是否存在、數量多少，以及它的位置和顏色。

比如LLaVA的顏色得分從78.33分大幅提升到155分。

圖片

不過，位置方面的“幻覺”提升不是特別大，作者推測可能是VQA模型BLIP-2在位置推理方面的能力相對較弱等原因造成的。

為了更直接地衡量修正表現，更直接的方式是使用開放評測。

不同于以往將圖片轉譯后送入純文本GPT-4的做法，作者利用OpenAI最近開放的視覺接口，提出使用GPT-4V對修正前后的圖片描述直接對下列兩個維度進行打分：

（1）準確度：模型的答復相對于圖片內容是否準確；

（2）細節程度：模型答復的細節豐富度。

在該實驗條件下，實驗結果如下表所示（滿分為10）：

圖片

結果表明經過“啄木鳥“修正后圖片描述的準確性有一定的提升，這說明該框架可以有效修正描述中幻視的部分。

另一方面，“啄木鳥“修正后引入的定位信息豐富了文本描述，提供了進一步的位置信息，從而提升了細節豐富度。

GPT-4V輔助的評測樣例如下圖所示：

圖片

試玩

還有Demo供大家測試使用。

如下圖所示，上傳圖片并輸入請求，就可以得到修正前以及修正后的模型答復，以及供參考驗證的新圖片。

Woopecker論文地址：
https://arxiv.org/abs/2310.16045 Woopecker代碼地址：https://github.com/BradyFU/Woodpecker

本文鏈接：http://www.tebozhan.com/showinfo-26-15607-0.html多模態LLM幻覺問題降低30%！業內首個“啄木鳥”免重訓方法誕生

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇：負載均衡器的八大使用場景介紹

下一篇：一日一技：如何安全運行別人上傳的Python代碼？

標簽：

熱門焦點

中興AX5400Pro+上手體驗：再升級雙2.5G網口+USB 3.0這次全都有

2021年11月的時候，中興先后發布了兩款路由器產品，中興AX5400和中興AX5400 Pro，從產品命名上就不難看出這是隸屬于同一系列的，但在外觀設計上這兩款產品可以說是完全沒一點關系
印度登月最關鍵一步！月船三號今晚進入環月軌道

8月5日消息，據印度官方消息，月船三號將于北京時間今晚21時30分左右開始近月制動進入環月軌道。這是該探測器能夠成功的最關鍵步驟之一，如果成功將開始圍
如何使用JavaScript創建一只圖像放大鏡？

譯者 | 布加迪審校 | 重樓如果您曾經瀏覽過購物網站，可能遇到過圖像放大功能。它可以讓您放大圖像的特定區域，以便瀏覽。結合這個小小的重要功能可以大大改善您網站的用戶體驗
使用Webdriver-manager解決瀏覽器與驅動不匹配所帶來自動化無法執行的問題

1、前言在我們使用 Selenium 進行 UI 自動化測試時，常常會因為瀏覽器驅動與瀏覽器版本不匹配，而導致自動化測試無法執行，需要手動去下載對應的驅動版本，并替換原有的驅動，可能還
一文搞定Java NIO，以及各種奇葩流

大家好，我是哪吒。很多朋友問我，如何才能學好IO流，對各種流的概念，云里霧里的，不求甚解。用到的時候，現百度，功能雖然實現了，但是為什么用這個？不知道。更別說效率問題了~下次再遇到，
“又被陳思誠騙了”

作者｜張思齊出品｜眾面（ID：ZhongMian_ZM）如今的國產懸疑電影，成了陳思誠的天下。最近大爆電影《消失的她》票房突破30億斷層奪魁暑期檔，陳思誠再度風頭無兩。你可以說陳思誠的
小米汽車電池信息疑似曝光：容量101kWh，支持800V高壓快充

7月14日消息，今日一名博主在社交媒體發布了一張疑似小米汽車電池信息的照片，顯示該電池包正是寧德時代麒麟電池，容量為101kWh，電壓為726.7V，可以預測小
四年持續更迭堅持探索行業無人之境，HarmonyOS 4帶來五大升級多項創新

除了華為每年新發布的旗艦手機系列，上億花粉更加期待鴻蒙系統每次的跨版本大更新。8月4日，HarmonyOS 4于HDC 2023正式發布，這也是該系統歷經四年的再
郭明錤稱華為和江淮汽車合作開發問界MPV，定價100萬左右、計劃明年量產

8 月 1 日消息，郭明錤今天在 Medium 平臺發布博文，稱華為正在和江淮汽車合作，開發售價在 100 萬元的問界 MPV，預計在 2024 年第 2 季度量產，銷量目標為

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

多模態LLM幻覺問題降低30%！業內首個“啄木鳥”免重訓方法誕生

“啄木鳥法”治療多模態LLM幻覺

效果驗證：幻覺減少30%

試玩

中興AX5400Pro+上手體驗：再升級雙2.5G網口+USB 3.0這次全都有

印度登月最關鍵一步！月船三號今晚進入環月軌道

如何使用JavaScript創建一只圖像放大鏡？

使用Webdriver-manager解決瀏覽器與驅動不匹配所帶來自動化無法執行的問題

一文搞定Java NIO，以及各種奇葩流

“又被陳思誠騙了”

小米汽車電池信息疑似曝光：容量101kWh，支持800V高壓快充

四年持續更迭堅持探索行業無人之境，HarmonyOS 4帶來五大升級多項創新

郭明錤稱華為和江淮汽車合作開發問界MPV，定價100萬左右、計劃明年量產

最新推薦

猜你喜歡

熱門推薦

相關資訊