據報道,英偉達與加州大學伯克利分校、加州大學舊金山分校團隊合作,推出了一款名為Describe Anything Model(DAM)的多模態模型。這款模型僅包含30億參數,卻能夠精準描述圖像和視頻中的任何細節。
DAM模型專注于詳細局部標注(DLC),即為特定區域生成詳細且精確的描述。通過兩大創新,研究人員在細節與上下文之間找到了平衡。其一是焦點提示,對目標區域進行高分辨率編碼,就像給模型配備了一副“放大鏡”,清晰捕捉到局部區域的細微特征。其二是局部視覺骨干網絡,將精確定位的特定區域與上下文無縫整合。
在項目主頁中,研究團隊展示了更多精彩demo。用戶通過點、框、涂鴉或掩碼的交互,即可一鍵生成描述。例如,上傳一張柯基在草地上奔跑的圖片,選中柯基,DAM會生成一段詳細的描述:“一只中等體型的狗,擁有濃密的紅棕色毛發,腹部和腿部為白色。這只狗尾巴蓬松,耳朵尖立,戴著帶有銀色吊牌的紅色項圈。它張著嘴露出牙齒,舌頭伸在外面。狗呈奔跑姿勢,前腿向前伸展,后腿向后伸直。”
DAM的技術架構確保了其在生成關鍵詞、短語,甚至是多句式的復雜描述時,都能保持高精度和連貫性。此外,研究團隊設計了基于半監督學習的流水線(DLC-SDP),通過兩階段策略構建大規模訓練數據。
為了公平評估DLC模型,研究團隊提出了全新基準DLC-Bench。通過LLM判斷,檢查描述的正確細節和錯誤缺失,而非簡單對比文本。在DLC-Bench和其他7個涵蓋圖像與視頻的基準測試中,DAM全面超越現有模型,樹立了新的標桿。
DAM的優勢主要有三大點:更詳細、更準確;更少幻覺;多場景適用。其強大能力為眾多應用場景打開了大門,未來諸如數據標注、醫療影像、內容創作等領域,都可以加速落地。
Long (Tony) Lian是UC伯克利電子工程與計算機科學博士研究生,他的研究主要聚焦于通過強化學習開發具備推理能力的大模型與視覺語言模型。此前,他曾在英偉達研究院Deep Imagination Research團隊實習。Long (Tony) Lian本科畢業于UC伯克利計算機科學專業。
本文鏈接:http://www.tebozhan.com/showinfo-27-147931-0.html英偉達聯合推出超強多模態模型DAM
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: 本田電動化新作:燁GT與P7雙車齊發
下一篇: 和輝光電遞表港交所,AMOLED面板業務表現亮眼
標簽: