當前位置：首頁 > 元宇宙 > AI

英偉達推 DAM-3B 模型：突破局部描述難題，讓 AI 看懂圖像視頻每一個角落

來源：責編：時間：2025-04-26 10:25:57 86觀看

導讀 4 月 24 日消息，科技媒體 marktechpost 昨日（4 月 23 日）發布博文，報道稱英偉達為應對圖像和視頻中特定區域的詳細描述難題，最新推出了 Describe Anything 3B（DAM-3B）AI 模型。視覺-語言模型（VLMs）在生成整體圖像描述

4 月 24 日消息，科技媒體 marktechpost 昨日（4 月 23 日）發布博文，報道稱英偉達為應對圖像和視頻中特定區域的詳細描述難題，最新推出了 Describe Anything 3B（DAM-3B）AI 模型。

視覺-語言模型（VLMs）在生成整體圖像描述時表現出色，但對特定區域的細致描述往往力不從心，尤其在視頻中需考慮時間動態，挑戰更大。

英偉達推出的 Describe Anything 3B（DAM-3B）直面這一難題，支持用戶通過點、邊界框、涂鴉或掩碼指定目標區域，生成精準且貼合上下文的描述文本。DAM-3B 和 DAM-3B-Video 分別適用于靜態圖像和動態視頻，模型已在 Hugging Face 平臺公開。

獨特架構與高效設計

DAM-3B 的核心創新在于“焦點提示”和“局部視覺骨干網絡”。

焦點提示技術融合了全圖信息與目標區域的高分辨率裁剪，確保細節不失真，同時保留整體背景。

局部視覺骨干網絡則通過嵌入圖像和掩碼輸入，運用門控交叉注意力機制，將全局與局部特征巧妙融合，再傳輸至大語言模型生成描述。

DAM-3B-Video 進一步擴展至視頻領域，通過逐幀編碼區域掩碼并整合時間信息，即便面對遮擋或運動也能生成準確描述。

數據與評估雙管齊下

為解決訓練數據匱乏問題，NVIDIA 開發了 DLC-SDP 半監督數據生成策略，利用分割數據集和未標注的網絡圖像，構建了包含 150 萬局部描述樣本的訓練語料庫。

通過自訓練方法優化描述質量，確保輸出文本的高精準度，團隊同時推出 DLC-Bench 評估基準，以屬性級正確性而非僵硬的參考文本對比衡量描述質量。

DAM-3B 在包括 LVIS、Flickr30k Entities 等七項基準測試中領先，平均準確率達 67.3%，超越 GPT-4o 和 VideoRefer 等模型。

DAM-3B 不僅填補了局部描述領域的技術空白，其上下文感知架構和高質量數據策略還為無障礙工具、機器人技術及視頻內容分析等領域開辟了新可能。

附上參考地址

Describe Anything: Detailed Localized Image and Video Captioning

Hugging Face

項目頁面

本文鏈接：http://www.tebozhan.com/showinfo-45-12581-0.html英偉達推 DAM-3B 模型：突破局部描述難題，讓 AI 看懂圖像視頻每一個角落

聲明：本網頁內容旨在傳播知識，若有侵權等問題請及時與本網聯系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： 50 → 100 條：OpenAI 放寬限制，Plus 等用戶每周可用 o3 AI 模型消息數翻倍

下一篇： “AI 教父”等發布聯名公開信： OpenAI 重組背離初衷，呼吁監管介入

標簽：

熱門焦點

從科幻走進現實，元宇宙概念逐漸清晰

2021年，元宇宙概念如同一顆炸彈投進互聯網行業，掀起了一場數字海嘯，眾多企業紛紛入局，在此新領域展開新探索。那么，加速狂奔的元宇宙究竟是什么？概念翻紅，元宇宙走進資本圈2021年3
2022開年最熱投資賽道竟是虛擬人，背后隱藏了什么商業價值？

在剛剛結束不久的2021年江蘇衛視跨年演唱會上，虛擬鄧麗君與歌手周深同臺聯唱，實現了跨時代合作，而這還不只是“鄧麗君”，嗶哩嗶哩、東方衛視等多家跨年晚會都出現
區塊鏈產業人才發展報告

工業和信息化部作為工業和信息化行業主管部門，正在著力推進“兩個強國”建設，加快推動以區塊鏈為代表的新興技術與實體經濟深度融合。我國區塊鏈技術和應用想要
《刀劍神域》VR展開幕；《Puzzling Places》發布第二個付費DLC

今日熱點：《刀劍神域：Ex-Chronicle Online Edition》VR展開幕；虛擬活動平臺EventX再獲800萬美元B輪融資；VR射擊游戲《Outlier》確認將于3月17日登陸Steam平臺等。
對諷刺無動于衷，Nori將碳市場放在區塊鏈上

當我們聊氣候問題的解決方案時，以太坊區塊鏈應該不是最首想到的，但這正是Nori所選擇的方案，它建立了一個引擎，鼓勵農民使用負碳耕作方法，將空氣中的碳抽出并放回地
冬奧會數字收藏品升溫，市場再現“一墩難求”

根據公開信息顯示，國際奧委會官方授權的冰墩墩數字盲盒于北京時間2月12日凌晨在nWayPlay平臺發售，總數為500個，每個99美元，每人限購5個。此外，不同的奧運徽章數字藏
我們為什么需要Web3，距離Web3的實現還有多遠？

當今技術正在經歷著重要的變革，許多公司正在改變他們的經營模式以求變得更加的靈活，其中有很大一部分公司采用了不同的方式來發展自己的業務。其中之一就是Web3，
你連元宇宙都不知道嗎？快來看看這四本元宇宙書籍吧

前有騰訊、阿里申請商標注冊，后有Facebook宣布改名，若論當前互聯網最火最熱的概念，當屬“元宇宙”。“阿里元宇宙”“淘寶元宇宙”“釘釘元宇宙”“QQ元宇宙”“
淺聊DAO圖景和未來

DAO是什么？DAO (Decentralized Autonomous Organizations),去中心化自治組織，是基于區塊鏈技術，由社區通過透明的決策過程運行和管理的組織形態。DAO使得社區成為

AVt天堂网手机版,亚洲va久久久噜噜噜久久4399,天天综合亚洲色在线精品,亚洲一级Av无码毛片久久精品

首頁

元宇宙

NFT

區塊鏈

虛擬人

AR/VR

AI

元宇宙百科

英偉達推 DAM-3B 模型：突破局部描述難題，讓 AI 看懂圖像視頻每一個角落

從科幻走進現實，元宇宙概念逐漸清晰

2022開年最熱投資賽道竟是虛擬人，背后隱藏了什么商業價值？

區塊鏈產業人才發展報告

《刀劍神域》VR展開幕；《Puzzling Places》發布第二個付費DLC

對諷刺無動于衷，Nori將碳市場放在區塊鏈上

冬奧會數字收藏品升溫，市場再現“一墩難求”

我們為什么需要Web3，距離Web3的實現還有多遠？

你連元宇宙都不知道嗎？快來看看這四本元宇宙書籍吧

淺聊DAO圖景和未來

最新推薦

猜你喜歡

熱門推薦

相關資訊

英偉達推 DAM-3B 模型：突破局部描述難題，讓 AI 看懂圖像 視頻每一個角落

最新推薦

猜你喜歡

熱門推薦

相關資訊

英偉達推 DAM-3B 模型：突破局部描述難題，讓 AI 看懂圖像視頻每一個角落