注意看,這個男人搬著一個長長的柜子,畫面中半個人都被遮擋住了。
但即使有這樣的遮擋,男人的整個身體在 AI 面前依然是無所遁形。
哪怕是蹲在椅子背后只露出頭,依然可以被模型完整還原。
從遮擋物背后把人“揪”出來的,是李飛飛團隊推出的人體建模新工具 Wild2Avatar(本文簡稱 W2A)。
只要一段 4 秒左右的單角度視頻,就能構建出完整的 3D 模型,有遮擋也不怕。
相比此前的 SOTA 方法,Wild2Avatar 在人體建模上可謂是實現了質的飛躍。
建模效果完勝 Vid2Avatar從下面的對比圖中(從左到右依次為帶遮擋原圖、Vid2Avatar 提取結果和 W2A 提取結果)可以看到,作為 baseline 的 Vid2Avatar 方法只能大概描繪出人的輪廓,遮擋物直接被“拍扁”到了人物身上,而且輪廓看上去也不夠準確。
而 W2A 提取出的任務不僅輪廓更加精確,看上去也更具立體感,關鍵是遮擋物被完美地去除,顯現出了完整的人物結構。
對遮擋物的去除,W2A 操作得也更為徹底,沒有留下多余的痕跡。
而 baseline 中部分結構缺失的現象,在 W2A 中也沒有發生,人物的結構十分完整。
而且,W2A 的人物建模是動態的,視頻畫面中,就算整個人都藏在椅子后面,依然可以輸出人物模型。
和另一 baseline OccNeRF 相比,W2A 只需 100 幀的訓練視頻就能復原出完整干凈的結構,但后者用了 500 幀的系列視頻后不僅結構缺陷極大,還存在許多“鬼影”。
測試數據也表明,對于陌生場景,W2A 的提取質量和完整性(comp.)都比 V2A 有所提升,特別是對遮擋(llm)部分,合成質量得分接近翻番。
和 OccNeRF 相比,W2A 與 500 幀訓練數據的 OccNeRF 整體成績接近,但遮擋部分仍然是有明顯增強。
那么,Wild2Avatar 是如何實現的呢?
人物與遮擋分層處理工作過程中,W2A 將整個場景分成了遮擋物、人物本體和背景三部分。
這三個部分由獨立的 NeRF 網絡分別預測特征,渲染圖像時再將三個部分的輸出拼合。
這種做法的主要目的是為了避免遮擋被誤當成人體的一部分,出現 Video2Avatar 那樣把遮擋物合成進人物的情況。
具體來說,李飛飛團隊將圖像映射到一個球空間,背景位于球外,人物和遮擋物則分別位于球空間內部的不同位置。
遮擋空間是通過內部采樣點的坐標和距離來構造的。用于遮擋部分的生成網絡與背景共享,可以預測遮擋空間樣本點的顏色和密度值。
而人體部分的處理則是使用 SMPL 的參數化方式,通過正向和反向皮膚擬合,先將人體變形到一個姿態不變的坐標空間,再輸入神經網絡進行學習。
為了增強任務模型的完整性,李飛飛團隊還設計了新的損失計算方式。
首先利用現成的分割模型輸出人體的二值分割掩碼,并掩碼取反得到“非人體”區域的掩碼,即為可能的遮擋區域。
同時,從 W2A 渲染的三個部分中遮擋部分的密度圖,然后根據提取結果再分離出人體部分。
其中人體部分與前面得到的“非人體”掩碼進行與非運算,得到的結果再和遮擋部分的密度圖做二值交叉熵運算,就得到了遮擋解耦損失 Locc。
Locc 會與像素重構損失、場景分解損失等其他損失參數一并納入到整個網絡的端到端訓練過程,用于優化更新網絡參數。
論文地址:
https://arxiv.org/abs/2401.00431
本文來自微信公眾號:量子位 (ID:QbitAI),作者:克雷西
本文鏈接:http://www.tebozhan.com/showinfo-45-3196-0.html李飛飛團隊實現“隔空建模”,透過遮擋物還原完整 3D 人體模型
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com