AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁 > 科技  > 軟件

多模態(tài)LLM幻覺問題降低30%!業(yè)內(nèi)首個(gè)“啄木鳥”免重訓(xùn)方法誕生

來源: 責(zé)編: 時(shí)間:2023-10-29 21:45:43 317觀看
導(dǎo)讀還在用指令微調(diào)解決多模態(tài)大模型的“幻覺”問題嗎?比如下圖中模型將橙色柯基錯(cuò)認(rèn)為“紅狗”,還指出周圍還有幾條。圖片現(xiàn)在,中科大的一項(xiàng)研究想到了一個(gè)全新辦法:一個(gè)免重訓(xùn)、即插即用的通用架構(gòu),直接從模型給出的錯(cuò)誤文本

還在用指令微調(diào)解決多模態(tài)大模型的“幻覺”問題嗎?FLz28資訊網(wǎng)——每日最新資訊28at.com

比如下圖中模型將橙色柯基錯(cuò)認(rèn)為“紅狗”,還指出周圍還有幾條。FLz28資訊網(wǎng)——每日最新資訊28at.com

圖片圖片FLz28資訊網(wǎng)——每日最新資訊28at.com

現(xiàn)在,中科大的一項(xiàng)研究想到了一個(gè)全新辦法:FLz28資訊網(wǎng)——每日最新資訊28at.com

一個(gè)免重訓(xùn)、即插即用的通用架構(gòu),直接從模型給出的錯(cuò)誤文本下手,“倒推”出可能出現(xiàn)“幻覺”之處,然后與圖片確定事實(shí),最終直接完成修正。FLz28資訊網(wǎng)——每日最新資訊28at.com

他們將這個(gè)方法命名為“啄木鳥”(Woodpecker)。FLz28資訊網(wǎng)——每日最新資訊28at.com

圖片圖片FLz28資訊網(wǎng)——每日最新資訊28at.com

就像這位所謂的“森林醫(yī)生”先找出樹木的蟲洞再吃掉里面的蟲子一樣,本文中所提出的“啄木鳥”也是多模態(tài)大模型們的“幻覺”醫(yī)生,能夠?qū)栴}先診斷出來再一一糾正。FLz28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果是“醫(yī)術(shù)確實(shí)高明”,成功將:FLz28資訊網(wǎng)——每日最新資訊28at.com

(1)MiniGPT-4的準(zhǔn)確性從54.67%提高到了85.33%;FLz28資訊網(wǎng)——每日最新資訊28at.com

(2)mPLUG Ow的準(zhǔn)確性從62%提到了86.33%。FLz28資訊網(wǎng)——每日最新資訊28at.com

如下圖所示,各種難以檢測(cè)到的小對(duì)象、復(fù)雜的計(jì)數(shù)場(chǎng)景,它都能沒問題。FLz28資訊網(wǎng)——每日最新資訊28at.com

圖片圖片FLz28資訊網(wǎng)——每日最新資訊28at.com

那么,它具體是如何診斷的呢?FLz28資訊網(wǎng)——每日最新資訊28at.com

“啄木鳥法”治療多模態(tài)LLM幻覺

目前,業(yè)內(nèi)對(duì)于大模型幻覺問題的解決辦法基本都是用特定數(shù)據(jù)進(jìn)行指令微調(diào)。FLz28資訊網(wǎng)——每日最新資訊28at.com

比如說,一些多模態(tài)大模型(MLLM)在回答問題時(shí)總是傾向于肯定答案(eg. 面對(duì)一個(gè)光頭人物圖,問它頭發(fā)是什么顏色,張口就說“黑”),那么我們?cè)傥菇o模型一些包含負(fù)樣本的數(shù)據(jù),就能解決它“無中生有”的幻覺,遇到?jīng)]有的就說“no”。FLz28資訊網(wǎng)——每日最新資訊28at.com

除了指令微調(diào),也有的會(huì)進(jìn)行架構(gòu)調(diào)整,反正都要重新訓(xùn)練一個(gè)新的模型。FLz28資訊網(wǎng)——每日最新資訊28at.com

本文提出的“啄木鳥”框架,是業(yè)內(nèi)第一個(gè)無需此操作就能解決“幻覺”的全新辦法。FLz28資訊網(wǎng)——每日最新資訊28at.com

它一共分為5個(gè)步驟,每一步都采用了清晰透明的設(shè)計(jì)方式,因此具備良好的可解釋性。FLz28資訊網(wǎng)——每日最新資訊28at.com

圖片圖片FLz28資訊網(wǎng)——每日最新資訊28at.com

具體而言:FLz28資訊網(wǎng)——每日最新資訊28at.com

第一步,關(guān)鍵概念提取。FLz28資訊網(wǎng)——每日最新資訊28at.com

指找出模型給出的答案中提到的主要對(duì)象,即最有可能解除“幻覺”的元素。FLz28資訊網(wǎng)——每日最新資訊28at.com

例如對(duì)于下圖,多模態(tài)大模型最開始可能描述圖中有一輛自行車停在一個(gè)垃圾桶旁邊,還說圖上有幾個(gè)人從垃圾桶旁邊走過。FLz28資訊網(wǎng)——每日最新資訊28at.com

圖片圖片FLz28資訊網(wǎng)——每日最新資訊28at.com

那么,我們就可以得到三個(gè)關(guān)鍵概念:自行車、垃圾桶和人。FLz28資訊網(wǎng)——每日最新資訊28at.com

第二步,問題構(gòu)造。FLz28資訊網(wǎng)——每日最新資訊28at.com

指在獲取關(guān)鍵概念后,圍繞它們提出一些問題有助于檢驗(yàn)“幻覺”所在的問題。FLz28資訊網(wǎng)——每日最新資訊28at.com

可主要分為對(duì)象層面和屬性層面,前者可以問“圖中有幾輛自行車?”,后者可問“垃圾桶位于什么位置?”。FLz28資訊網(wǎng)——每日最新資訊28at.com

在此,由于屬性問題比較依賴于上下文,作者也用了一些帶有上下文的例子來提示模型,以便提出的問題更有意義FLz28資訊網(wǎng)——每日最新資訊28at.com

第三步,視覺驗(yàn)證。FLz28資訊網(wǎng)——每日最新資訊28at.com

指引用專家模型回答上步提出的所有問題,方便后續(xù)校正。FLz28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于對(duì)象層面的問題,例如我們利用GroundingDINO來進(jìn)行目標(biāo)檢測(cè),確定關(guān)鍵目標(biāo)是否存在以及關(guān)鍵目標(biāo)的數(shù)量。FLz28資訊網(wǎng)——每日最新資訊28at.com

對(duì)于屬性問題,則用BLIP-2來搞定。這類傳統(tǒng)VQA模型輸出答案的長度有限,"幻覺"問題更少。FLz28資訊網(wǎng)——每日最新資訊28at.com

第四步,視覺斷言生成。FLz28資訊網(wǎng)——每日最新資訊28at.com

簡單來說,就是基于于前兩步中獲得的問題以及對(duì)應(yīng)的視覺信息,合成結(jié)構(gòu)化的“視覺斷言”。FLz28資訊網(wǎng)——每日最新資訊28at.com

格式如下:FLz28資訊網(wǎng)——每日最新資訊28at.com

圖片圖片FLz28資訊網(wǎng)——每日最新資訊28at.com

最后,“幻覺”糾正。FLz28資訊網(wǎng)——每日最新資訊28at.com

即根據(jù)上步的總結(jié)比對(duì)模型原始的輸出,得出新的答案。FLz28資訊網(wǎng)——每日最新資訊28at.com

具體實(shí)施環(huán)節(jié)中,“啄木鳥”采用GPT-3.5-turbo來完成關(guān)鍵概念提取、提問和最后一步的糾正。FLz28資訊網(wǎng)——每日最新資訊28at.com

由于一些多模態(tài)模型的指令跟隨能力較弱,導(dǎo)致結(jié)果可能輸出無關(guān)文本(例如表情、特殊符號(hào)),再加上有時(shí)一些模型只輸出一個(gè)“是”或“否”,這讓實(shí)際的校正過程也面臨挑戰(zhàn)。FLz28資訊網(wǎng)——每日最新資訊28at.com

不過,我們兩個(gè)簡單措施就可以搞定:FLz28資訊網(wǎng)——每日最新資訊28at.com

(1)將模型回答的“是”或“否”與“啄木鳥”給出的答案組合起來,比如“是的,圖像中有一只狗”,就不怕模型原本只是給出一個(gè)簡單的“yes or no”逃過校正了。FLz28資訊網(wǎng)——每日最新資訊28at.com

(2)在校正過程中,將原始問題添加到LLM,以便LLM更好地掌握文本和任務(wù)要求。FLz28資訊網(wǎng)——每日最新資訊28at.com

效果驗(yàn)證:幻覺減少30%

整個(gè)方法看起來非常好理解,效果如何呢?FLz28資訊網(wǎng)——每日最新資訊28at.com

在此,作者在POPE、MME和LLaVA-QA90數(shù)據(jù)集上進(jìn)行了全面的定量和定性實(shí)驗(yàn)。FLz28資訊網(wǎng)——每日最新資訊28at.com

基線模型選用這四個(gè)主流多模態(tài)大模型:FLz28資訊網(wǎng)——每日最新資訊28at.com

MiniGPT-4、mPLUG Owl、LLaVA和Otter。FLz28資訊網(wǎng)——每日最新資訊28at.com

最終,POPE數(shù)據(jù)集上的結(jié)果如下:FLz28資訊網(wǎng)——每日最新資訊28at.com

(w/Ours表示由“啄木鳥”校正的MLLM響應(yīng),x為未采用,對(duì)勾為采用)FLz28資訊網(wǎng)——每日最新資訊28at.com

可以看到,“啄木鳥”都能給這幾個(gè)模型帶來不同程度的提升,同時(shí)大幅降低模型回答“yes”的概率。FLz28資訊網(wǎng)——每日最新資訊28at.com

其中在隨機(jī)設(shè)定下,它給MiniGPT-4和mPLUG-Owl和在準(zhǔn)確率指標(biāo)上分別帶來了30.66%和24.33%的提升。FLz28資訊網(wǎng)——每日最新資訊28at.com

圖片圖片FLz28資訊網(wǎng)——每日最新資訊28at.com

在更全面的MME數(shù)據(jù)集上,“啄木鳥”也有效減少了多模態(tài)大模型在對(duì)象級(jí)和屬性級(jí)層面的“幻覺”,也就是某物是否存在、數(shù)量多少,以及它的位置和顏色。FLz28資訊網(wǎng)——每日最新資訊28at.com

比如LLaVA的顏色得分從78.33分大幅提升到155分。FLz28資訊網(wǎng)——每日最新資訊28at.com

圖片圖片FLz28資訊網(wǎng)——每日最新資訊28at.com

不過,位置方面的“幻覺”提升不是特別大,作者推測(cè)可能是VQA模型BLIP-2在位置推理方面的能力相對(duì)較弱等原因造成的。FLz28資訊網(wǎng)——每日最新資訊28at.com

為了更直接地衡量修正表現(xiàn),更直接的方式是使用開放評(píng)測(cè)。FLz28資訊網(wǎng)——每日最新資訊28at.com

不同于以往將圖片轉(zhuǎn)譯后送入純文本GPT-4的做法,作者利用OpenAI最近開放的視覺接口,提出使用GPT-4V對(duì)修正前后的圖片描述直接對(duì)下列兩個(gè)維度進(jìn)行打分:FLz28資訊網(wǎng)——每日最新資訊28at.com

(1)準(zhǔn)確度:模型的答復(fù)相對(duì)于圖片內(nèi)容是否準(zhǔn)確;FLz28資訊網(wǎng)——每日最新資訊28at.com

(2)細(xì)節(jié)程度:模型答復(fù)的細(xì)節(jié)豐富度。 FLz28資訊網(wǎng)——每日最新資訊28at.com

在該實(shí)驗(yàn)條件下,實(shí)驗(yàn)結(jié)果如下表所示(滿分為10):FLz28資訊網(wǎng)——每日最新資訊28at.com

圖片圖片FLz28資訊網(wǎng)——每日最新資訊28at.com

結(jié)果表明經(jīng)過“啄木鳥“修正后圖片描述的準(zhǔn)確性有一定的提升,這說明該框架可以有效修正描述中幻視的部分。FLz28資訊網(wǎng)——每日最新資訊28at.com

另一方面,“啄木鳥“修正后引入的定位信息豐富了文本描述,提供了進(jìn)一步的位置信息,從而提升了細(xì)節(jié)豐富度。FLz28資訊網(wǎng)——每日最新資訊28at.com

GPT-4V輔助的評(píng)測(cè)樣例如下圖所示:FLz28資訊網(wǎng)——每日最新資訊28at.com

圖片圖片FLz28資訊網(wǎng)——每日最新資訊28at.com

試玩

還有Demo供大家測(cè)試使用。FLz28資訊網(wǎng)——每日最新資訊28at.com

如下圖所示,上傳圖片并輸入請(qǐng)求,就可以得到修正前以及修正后的模型答復(fù),以及供參考驗(yàn)證的新圖片。FLz28資訊網(wǎng)——每日最新資訊28at.com

 FLz28資訊網(wǎng)——每日最新資訊28at.com

Woopecker論文地址:
https://arxiv.org/abs/2310.16045 Woopecker代碼地址:https://github.com/BradyFU/WoodpeckerFLz28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-26-15607-0.html多模態(tài)LLM幻覺問題降低30%!業(yè)內(nèi)首個(gè)“啄木鳥”免重訓(xùn)方法誕生

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識(shí),若有侵權(quán)等問題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系,我們將在第一時(shí)間刪除處理。郵件:2376512515@qq.com

上一篇: 負(fù)載均衡器的八大使用場(chǎng)景介紹

下一篇: 一日一技:如何安全運(yùn)行別人上傳的Python代碼?

標(biāo)簽:
  • 熱門焦點(diǎn)
  • MIX Fold3包裝盒泄露 新機(jī)本月登場(chǎng)

    小米的全新折疊屏旗艦MIX Fold3將于本月發(fā)布,近日該機(jī)的真機(jī)包裝盒在網(wǎng)上泄露。從圖上來看,新的MIX Fold3包裝盒在外觀設(shè)計(jì)方面延續(xù)了之前的方案,變化不大,這也是目前小米旗艦
  • 小米降噪藍(lán)牙耳機(jī)Necklace分享:聽一首歌 讀懂一個(gè)故事

    在今天下午的小米Civi 2新品發(fā)布會(huì)上,小米還帶來了一款新的降噪藍(lán)牙耳機(jī)Necklace,我們也在發(fā)布結(jié)束的第一時(shí)間給大家?guī)磉@款耳機(jī)的簡單分享。現(xiàn)在大家能見到最多的藍(lán)牙耳機(jī)
  • 之家push系統(tǒng)迭代之路

    前言在這個(gè)信息爆炸的互聯(lián)網(wǎng)時(shí)代,能夠及時(shí)準(zhǔn)確獲取信息是當(dāng)今社會(huì)要解決的關(guān)鍵問題之一。隨著之家用戶體量和內(nèi)容規(guī)模的不斷增大,傳統(tǒng)的靠"主動(dòng)拉"獲取信息的方式已不能滿足用
  • 三萬字盤點(diǎn) Spring 九大核心基礎(chǔ)功能

    大家好,我是三友~~今天來跟大家聊一聊Spring的9大核心基礎(chǔ)功能。話不多說,先上目錄:圖片友情提示,本文過長,建議收藏,嘿嘿嘿!一、資源管理資源管理是Spring的一個(gè)核心的基礎(chǔ)功能,不
  • 中國家電海外掘金正當(dāng)時(shí)|出海專題

    作者|吳南南編輯|胡展嘉運(yùn)營|陳佳慧出品|零態(tài)LT(ID:LingTai_LT)2023年,出海市場(chǎng)戰(zhàn)況空前,中國創(chuàng)業(yè)者在海外紛紛摩拳擦掌,以期能夠把中國的商業(yè)模式、創(chuàng)業(yè)理念、戰(zhàn)略打法輸出海外,他們依
  • SN570 NVMe SSD固態(tài)硬盤 價(jià)格與性能兼具

    SN570 NVMe SSD固態(tài)硬盤是西部數(shù)據(jù)發(fā)布的最新一代WD Blue系列的固態(tài)硬盤,不僅閃存技術(shù)更為精進(jìn),性能也得到了進(jìn)一步的躍升。WD Blue SN570 NVMe SSD的包裝外
  • 英特爾Xe HPG游戲顯卡:擁有512EU,單風(fēng)扇版本

    據(jù)10 月 30 日外媒 TheVerge 消息報(bào)道,英特爾 Xe HPG Arc Alchemist 的正面實(shí)被曝光,不僅擁有 512 EU 版顯卡,還擁有 128EU 的單風(fēng)扇版本。另外,這款顯卡 PCB
  • 親歷馬斯克血洗Twitter,硅谷的苦日子在后頭

    文/劉哲銘  編輯/李薇  馬斯克再次揮下裁員大刀。  美國時(shí)間11月14日,Twitter約4400名外包員工遭解雇,此次被解雇的員工的主要工作為內(nèi)容審核等。此前,T
  • 榮耀Magic4 至臻版 首創(chuàng)智慧隱私通話 強(qiáng)勁影音系統(tǒng)

    2022年第一季度臨近尾聲,在該季度內(nèi),許多品牌陸續(xù)發(fā)布自己的最新產(chǎn)品,讓大家從全新的角度來了解當(dāng)今的手機(jī)技術(shù)。手機(jī)是電子設(shè)備中,更新迭代十分迅速的一款產(chǎn)品,基
Top