AVt天堂网 手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

當(dāng)前位置:首頁 > 元宇宙 > AI

英偉達(dá)推 DAM-3B 模型:突破局部描述難題,讓 AI 看懂圖像 視頻每一個角落

來源: 責(zé)編: 時間:2025-04-26 10:25:57 15觀看
導(dǎo)讀 4 月 24 日消息,科技媒體 marktechpost 昨日(4 月 23 日)發(fā)布博文,報道稱英偉達(dá)為應(yīng)對圖像和視頻中特定區(qū)域的詳細(xì)描述難題,最新推出了 Describe Anything 3B(DAM-3B)AI 模型。視覺-語言模型(VLMs)在生成整體圖像描述

4 月 24 日消息,科技媒體 marktechpost 昨日(4 月 23 日)發(fā)布博文,報道稱英偉達(dá)為應(yīng)對圖像和視頻中特定區(qū)域的詳細(xì)描述難題,最新推出了 Describe Anything 3B(DAM-3B)AI 模型。Uev28資訊網(wǎng)——每日最新資訊28at.com

視覺-語言模型(VLMs)在生成整體圖像描述時表現(xiàn)出色,但對特定區(qū)域的細(xì)致描述往往力不從心,尤其在視頻中需考慮時間動態(tài),挑戰(zhàn)更大。Uev28資訊網(wǎng)——每日最新資訊28at.com

英偉達(dá)推出的 Describe Anything 3B(DAM-3B)直面這一難題,支持用戶通過點、邊界框、涂鴉或掩碼指定目標(biāo)區(qū)域,生成精準(zhǔn)且貼合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分別適用于靜態(tài)圖像和動態(tài)視頻,模型已在 Hugging Face 平臺公開。Uev28資訊網(wǎng)——每日最新資訊28at.com

獨特架構(gòu)與高效設(shè)計Uev28資訊網(wǎng)——每日最新資訊28at.com

DAM-3B 的核心創(chuàng)新在于“焦點提示”和“局部視覺骨干網(wǎng)絡(luò)”。Uev28資訊網(wǎng)——每日最新資訊28at.com

Uev28資訊網(wǎng)——每日最新資訊28at.com

焦點提示技術(shù)融合了全圖信息與目標(biāo)區(qū)域的高分辨率裁剪,確保細(xì)節(jié)不失真,同時保留整體背景。Uev28資訊網(wǎng)——每日最新資訊28at.com

局部視覺骨干網(wǎng)絡(luò)則通過嵌入圖像和掩碼輸入,運(yùn)用門控交叉注意力機(jī)制,將全局與局部特征巧妙融合,再傳輸至大語言模型生成描述。Uev28資訊網(wǎng)——每日最新資訊28at.com

DAM-3B-Video 進(jìn)一步擴(kuò)展至視頻領(lǐng)域,通過逐幀編碼區(qū)域掩碼并整合時間信息,即便面對遮擋或運(yùn)動也能生成準(zhǔn)確描述。Uev28資訊網(wǎng)——每日最新資訊28at.com

數(shù)據(jù)與評估雙管齊下Uev28資訊網(wǎng)——每日最新資訊28at.com

為解決訓(xùn)練數(shù)據(jù)匱乏問題,NVIDIA 開發(fā)了 DLC-SDP 半監(jiān)督數(shù)據(jù)生成策略,利用分割數(shù)據(jù)集和未標(biāo)注的網(wǎng)絡(luò)圖像,構(gòu)建了包含 150 萬局部描述樣本的訓(xùn)練語料庫。Uev28資訊網(wǎng)——每日最新資訊28at.com

Uev28資訊網(wǎng)——每日最新資訊28at.com

通過自訓(xùn)練方法優(yōu)化描述質(zhì)量,確保輸出文本的高精準(zhǔn)度,團(tuán)隊同時推出 DLC-Bench 評估基準(zhǔn),以屬性級正確性而非僵硬的參考文本對比衡量描述質(zhì)量。Uev28資訊網(wǎng)——每日最新資訊28at.com

Uev28資訊網(wǎng)——每日最新資訊28at.com

DAM-3B 在包括 LVIS、Flickr30k Entities 等七項基準(zhǔn)測試中領(lǐng)先,平均準(zhǔn)確率達(dá) 67.3%,超越 GPT-4o 和 VideoRefer 等模型。Uev28資訊網(wǎng)——每日最新資訊28at.com

DAM-3B 不僅填補(bǔ)了局部描述領(lǐng)域的技術(shù)空白,其上下文感知架構(gòu)和高質(zhì)量數(shù)據(jù)策略還為無障礙工具、機(jī)器人技術(shù)及視頻內(nèi)容分析等領(lǐng)域開辟了新可能。Uev28資訊網(wǎng)——每日最新資訊28at.com

附上參考地址Uev28資訊網(wǎng)——每日最新資訊28at.com

Describe Anything: Detailed Localized Image and Video CaptioningUev28資訊網(wǎng)——每日最新資訊28at.com

Hugging FaceUev28資訊網(wǎng)——每日最新資訊28at.com

項目頁面Uev28資訊網(wǎng)——每日最新資訊28at.com

本文鏈接:http://www.tebozhan.com/showinfo-45-12581-0.html英偉達(dá)推 DAM-3B 模型:突破局部描述難題,讓 AI 看懂圖像 視頻每一個角落

聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com

上一篇: 50 → 100 條:OpenAI 放寬限制,Plus 等用戶每周可用 o3 AI 模型消息數(shù)翻倍

下一篇: “AI 教父”等發(fā)布聯(lián)名公開信: OpenAI 重組背離初衷,呼吁監(jiān)管介入

標(biāo)簽:
  • 熱門焦點
  • 沉寂3年,大模型激活小度天貓精靈?

    Tech星球(微信ID:tech618)文 | 何煦陽 沉寂了許久的智能音箱,在今年大模型橫空出世之后,又再次燃起了新的希望。 2月9日,小度宣布將融合文心一言,打造針對智能設(shè)備場景的AI模型&ldq
  • 風(fēng)口已至,多領(lǐng)域平臺融入社交元素!

    在眾多領(lǐng)域平臺中,社交元素都扮演著重要角色,如直播營銷帶貨、線上配對聽歌、游戲局內(nèi)互動等。隨著元宇宙時代的來臨,社交產(chǎn)品不斷升級,社交元素推動流量變現(xiàn),多平臺領(lǐng)域融入社交
  • 星展銀行(DBS)計劃推出零售數(shù)字資產(chǎn)交易服務(wù)

    2月14日消息,新加坡星展銀行CEO Piyush Gupta在財報會議上表示,計劃于2022年年底前推出零售數(shù)字資產(chǎn)交易服務(wù)。據(jù)悉,DBS于2021年初開設(shè)了機(jī)構(gòu)數(shù)字資產(chǎn)交易平臺,全
  • 冰墩墩的NFT暴漲千倍?真相則是價格暴跌、成交遇冷

    《區(qū)塊鏈日報》記者查證,近日來冰墩墩數(shù)字藏品交易數(shù)量出現(xiàn)大幅下滑,而所謂的暴漲千倍更是有價無市的自嗨。昨日,北京冬奧會正式閉幕。在這屆冬奧會上,吉祥物“冰
  • 索尼公布PSVR 2頭顯渲染圖;社區(qū)開發(fā)者發(fā)布Quest版《我的世界》

    近日熱點:索尼正式公布PSVR 2頭顯及控制器官方渲染圖;入局元宇宙,鴻海科技與XRSPACE簽訂合作備忘錄;研究人員表示面部追蹤可增強(qiáng)VR操控體驗;社區(qū)開發(fā)者QuestCraft發(fā)
  • NFT 技術(shù)將傳世之作帶入博物館

    意大利四大博物館已與一個項目合作,該項目將展示和銷售達(dá)芬奇、卡拉瓦喬、拉斐爾和莫迪利亞尼等人的杰作的 NFT復(fù)制品。該計劃采用了 科技公司Cincello的國際專
  • 對諷刺無動于衷,Nori將碳市場放在區(qū)塊鏈上

    當(dāng)我們聊氣候問題的解決方案時,以太坊區(qū)塊鏈應(yīng)該不是最首想到的,但這正是Nori所選擇的方案,它建立了一個引擎,鼓勵農(nóng)民使用負(fù)碳耕作方法,將空氣中的碳抽出并放回地
  • 虛擬鄧麗君后,數(shù)字人賽道開啟3.0時代

    “如果右腦時代來臨,虛擬世界將是對人類才華的無限放大。” 郭曉喆稱,開發(fā)數(shù)字人形象時,自己的團(tuán)隊在內(nèi)部“卷”了一下:“當(dāng)我們翻閱大量歷史典籍的時候,蘇小妹找到
  • Ceramic:為Web3.0社交應(yīng)用打造的中間件

    大家關(guān)注老雅痞公眾號這么久,對Web3的概念不陌生吧?讓我們做一個簡短的回顧,Web3主要被描述為去中心化的網(wǎng)絡(luò),旨在實現(xiàn)無服務(wù)器、去中心化的互聯(lián)網(wǎng),即用戶掌握自己
Top