Xyd28資訊網——每日最新資訊28at.com
研發背景
作為頭戴的追蹤配件,VR手柄可以通過HMD(頭戴顯示設備)的inside-out光學追蹤定位原理,計算出手柄的空間運動軌跡,同時結合6軸傳感器實現6DoF空間定位。與此同時,結合手柄控制器的物理按鍵、馬達反饋、搖桿等,用戶還能獲得逼真、細膩的觸覺反饋,進一步增強虛擬現實人機交互的能力以及沉浸感,這也是目前無手柄方案所難以實現的。Xyd28資訊網——每日最新資訊28at.com
目前主流VR手柄的追蹤技術方案,包括光學追蹤、自追蹤和電磁追蹤方案。Xyd28資訊網——每日最新資訊28at.com
Xyd28資訊網——每日最新資訊28at.com
因精度高、功耗低、成本低,光學追蹤是目前最主流的VR手柄追蹤方式。為了保證IR燈(紅外燈)不易受遮擋,通常手柄本體上都帶有一個明顯凸起的追蹤光環。Xyd28資訊網——每日最新資訊28at.com
但為了順應VR設備小型化得趨勢,提升用戶攜帶的便利性,并提供更自然的交互方式,PICO取消了手柄上的追蹤光環,選擇在手柄本體有限區域內布置少量的IR燈。Xyd28資訊網——每日最新資訊28at.com
Centaur多模態融合算法架構
更小的手柄、更少的IR燈,也意味著更頻繁的遮擋。如何解決遮擋情況下的手柄追蹤問題,則是PICO研發團隊面臨的關鍵課題。Xyd28資訊網——每日最新資訊28at.com
基于團隊在光學追蹤與裸手追蹤方面的技術積累,PICO創新性地提出了一套基于神經網絡的多模態手柄追蹤架構,其融合了慣性測量單元(IMU)、光學傳感器和手部圖像信息。在手柄被遮擋的情況下,裸手追蹤能夠提供更加精準的觀測,同時手柄又能為手部追蹤提供準確預測,兩者深度融合、相互輔助。Xyd28資訊網——每日最新資訊28at.com
裸手追蹤
由于手柄的遮擋,通常裸手視覺特征并不明顯,這也常常會引發追蹤失效。針對該難點,裸手算法團隊創新性地提出Down-Top的端到端6DoF追蹤算法,通過有效利用多目時序的全局上下文信息,一次性準確且穩定地預測手柄位姿信息,能夠在手柄追蹤失效時,及時提供魯棒的6DoF位姿。Xyd28資訊網——每日最新資訊28at.com
1. 模型背景
目前普遍的裸手追蹤算法是基于Top-Down結構,即基于Detection模型檢測出手部的bounding-box框,再利用bounding-box框將手部摳選出來,如下圖所示:Xyd28資訊網——每日最新資訊28at.com
Xyd28資訊網——每日最新資訊28at.com
該結構可以獲得更高的精度,但是在平舉、自然垂下等特殊動作場景中,由于小手柄遮擋或離得較遠等原因,手部放大之后模糊的地方較多,如下圖所示:Xyd28資訊網——每日最新資訊28at.com
圖片Xyd28資訊網——每日最新資訊28at.com
圖片Xyd28資訊網——每日最新資訊28at.com
這種情況下,Top-Down的結構就很難檢測出手腕點的位置,從而導致解算失敗和手柄失效。但Down-Top的結構,則可以幫助PICO從大圖中的手臂、身體等信息,判斷手腕點的位置。Xyd28資訊網——每日最新資訊28at.com
2. 模型結構圖
Xyd28資訊網——每日最新資訊28at.com
3. 評測結果
從使用Top-Down模型結構和Down-Top模型結構在平舉和垂下等場景中的實驗結果中,可以發現,使用Down-Top方案,能夠在精度相近的情況下,獲得更高的檢出率:36%->93%。Xyd28資訊網——每日最新資訊28at.com
Top-DownXyd28資訊網——每日最新資訊28at.com
Down-TopXyd28資訊網——每日最新資訊28at.com
融合算法
1. 全新挑戰
傳統光學追蹤方案,依賴手柄上一個顯著突出的物理結構(即追蹤光環),來確保手柄在各種各樣的握持角度和位置條件下,都有足夠的LED燈點可以被定位攝像頭觀測到。多個LED光點在圖像上的2D位置被確定后,則可以進行PNP解算,輔以手柄內高幀率的IMU,則可以獲得精確的手柄高頻定位結果,從而為用戶提供準確、流暢的追蹤體驗。Xyd28資訊網——每日最新資訊28at.com
PICO 4 手柄Xyd28資訊網——每日最新資訊28at.com
Quest 2手柄Xyd28資訊網——每日最新資訊28at.com
但去掉光環后,追蹤算法則面臨較大挑戰。由于LED只能夠被稀疏的布置于手柄本體的幾個區域,且更少的數量和更易被遮擋的情況,也導致攝像頭經常性地只能觀測到有限的紅外燈,甚至是零個。此時算法僅依賴IMU的慣性遞推解算,并不能長時間提供穩定可靠的定位信息。Xyd28資訊網——每日最新資訊28at.com
PICO算法團隊經過多輪探索預研后,創新提出了融合慣性測量單元(IMU)、光學傳感器和手部圖像信息的多模態融合方案。該方案基于手勢識別和手柄光學追蹤的互補性,完美地解決了上述的一系列挑戰和難點。團隊將其命名為Centaur多模態融合算法。Xyd28資訊網——每日最新資訊28at.com
2. Centaur多模態融合算法的構成
Centaur多模態融合算法將視覺信息和慣性信息進行融合,進而得到手柄位姿及速度的最優估計,并提供給上層應用層。融合算法構成如下圖所示:Xyd28資訊網——每日最新資訊28at.com
圖片Xyd28資訊網——每日最新資訊28at.com
圖中各模塊的功能:Xyd28資訊網——每日最新資訊28at.com
- 多個Global-Shutter IR camra布置在頭戴四周,正常曝光幀能夠采集到人手的特征,低曝光幀則能夠在抑制大部分環境光照干擾時獲取到手柄中的LED位置。
- 一個IMU模塊布置在手柄內部,提供手柄運動時的加速度和角速率信息。
- 3-DOF模塊借助純IMU數據估計手部的旋轉信息。
- 基于深度學習手勢檢測及追蹤模塊(AI-based hand detection & tracking),通過有效利用多目時序的全局上下文信息,準確預測手柄的位姿信息。
- 光學定位模塊(Led detection / matching & pose estimation),使用3-DOF提供的姿態和LED在手柄上的分布等先驗信息,通過智能匹配機制確定圖像光斑和led燈的匹配關系,得到手柄位姿的單幀估計值。
- 多幀融合濾波器(Multi-State-ESKF),將得到的手部位姿、手柄IMU數據、LED光學估計位姿及LED匹配關系等信息進行融合計算,得到高精度、高幀率的手柄位置、旋轉及速度信息,并更新給系統接口,供上層應用使用。
3. 追蹤與融合
當算法首次運行,或處于3DOF狀態時,由于沒有連續追蹤產生的時序先驗信息,因此需要Bootstrap from scratch的初始化方案。在LED及手勢兩種信息的加持下,初始化算法相比傳統光學定位也做了相應的升級,并運行LED初始化和手勢初始化兩種算法,最先解出正確初始狀態的算法將使用手柄初始位姿及速度初始化融合濾波器,從而顯著改善各種握姿下手柄初始化的速度和成功率。Xyd28資訊網——每日最新資訊28at.com
而當算法初始化完成并進入追蹤狀態時,算法流程又如下圖所示:Xyd28資訊網——每日最新資訊28at.com
圖片Xyd28資訊網——每日最新資訊28at.com
- Step 1. 當一個新的圖像幀到來時,基于滑窗中的歷史幀狀態,利用IMU數據進行慣性遞推解算,得到新圖像幀的狀態預測值。
- Step 2. 基于預測的手柄位姿能在當前幀圖像中得到手柄LED或手部特征的預測位置,下面具體分類描述:
- 針對正常曝光幀: 采用上文所述的Down-Top的網絡結構,直接得到手腕關節6DOF的位姿結果,使用“手柄-手腕”對齊關系轉換成手柄位姿,添加為一個位姿觀測,作為當前幀的約束。
- 針對低曝光幀: 在區域中檢測得到LED光斑的2D位置。基于最近鄰匹配算法,將預測的2D點集與檢測得到的2D點集進行匹配。使用PNP solver得到手柄位姿估計,將位姿結果和2D匹配結果都添加到觀測factor,作為當前幀約束。
- Step 3. 最終的融合算法采用了Multi-State ESKF方案,采取了松耦合/緊耦合結合的模式,對追蹤效果有顯著改善的同時節省計算量并保證穩定性。
4. Centuar多模態融合算法收益
- 下圖為僅有 3 顆 LED 燈時手柄靜止狀態下的追蹤效果,多幀緊耦合比單幀松耦合的結果更加精確,追蹤更加穩定,波動顯著減小:
- 光學觀測的抖動非常明顯,±3sigma范圍約為「x軸16mm,y軸4mm,z軸25mm」。實際動作是放在頭戴正前下方,露出三顆紅外燈并保持靜止,因此深度方向上(xz)誤差顯著大于與深度正交方向(y)上的誤差。
- 松耦合eskf對光學觀測抖動有抑制作用,三軸向抖動范圍壓到「x軸6mm,y軸2.5mm,z軸9mm左右」,但速度估計波動仍有10mm/s。
- 多幀緊耦合的結果是最好的,軌跡明顯更平滑,抖動范圍約「x軸2mm,y軸1mm,z軸3mm左右」,速度抖動范圍3mm/s左右,相比原Filter各項誤差指標大約有3倍收益。
圖片Xyd28資訊網——每日最新資訊28at.com
- 當做翻手動作,徹底遮擋所有LED時,算法融合手勢定位信息與IMU信息,能夠保持手柄的追蹤狀態與追蹤精度,在各種場景下均能切換自如,絲滑操作。
- 為了驗證追蹤效果,PICO團隊還進行了極客玩家的極限測試,在運動健身、音游等需要快速甩動手柄的場景下,PICO多模態融合算法,都能準確且穩定地追蹤手部和手柄的位置、姿態。
PICO 無燈環小手柄Xyd28資訊網——每日最新資訊28at.com
自研同步多相機系統
數據采集與自動標注
PICO數據實驗室構建了多模態的同步相機系統,不僅能獲得大量且高精度的數據信息,也為技術和產品的研發奠定了堅實基礎。該系統硬件方面包括工業 RGB 相機陣列,結構光掃描儀,光學動捕相機系統,以及 VR 頭戴,軟件方面包括點云注冊、時空間標定、手勢手柄自動標注等,數據采集與自動標注流程包含采集前的準備和數據采集作業,其中數據采集作業又分為兩個階段。Xyd28資訊網——每日最新資訊28at.com
Xyd28資訊網——每日最新資訊28at.com
我們采用結構光掃描儀獲取手柄和 IR 光球表面的密集點云獲得了光球到手柄模型的轉換關系。我們還將光球綁定到了 tag 標定板上,通過觀測標定板獲得了包括 VR 頭戴在內的傳感器參數;對于各個傳感器的時間線,我們采用兩種方式來對齊:一是侵入式地共用外部時鐘信號,二是通過快速舞動頭戴設備,從而獲得 VR 頭戴軌跡和與其綁定的光球軌跡來進行時、空間對齊。Xyd28資訊網——每日最新資訊28at.com
采集前,結構光掃描及注冊Xyd28資訊網——每日最新資訊28at.com
Xyd28資訊網——每日最新資訊28at.com
Xyd28資訊網——每日最新資訊28at.com
- 第一步,以多視角的圖像作為輸入,使用自研的手部姿態標注算法獲得關鍵點位置。在這一環節中,為保持數據的高精度,我們提出了基于解耦表示的手勢姿態估計算法。我們構建了 2D 視覺空間和 3D 節點空間,并通過迭代的方式不斷優化手部姿態。同時,為了解決數據標注冷啟動時訓練數據來源的問題,我們還設計了多視角自監督的框架。相關算法已發表于 ICCV2023 會議中。
- 第二步,在獲得不同視角觀測的手部姿態后,我們融合多視角信息。通過使用三角化方法,通過 RANSAC 獲取多視角融合后的 3D 手部姿態。在此基礎上,再結合每個手部關鍵點的置信度進行微調優化。
- 第三步,以上一步獲得的 3D 手部關鍵點為目標,綜合考慮骨骼位置、運動速度、手部關節的旋轉、手勢和手柄之間的碰撞關系等多種約束,對前序的結果進行優化。至此,我們獲得了手的關鍵點以及手和手柄的相對位置關系。
- 第一階段:相機系統同步采集工業相機和 VR 頭戴相機的圖像,并同時采集光學動捕相機捕捉的標志點坐標。
- 第二階段,被采集者保持手相對手柄姿勢不變,在不同場景中揮動手柄獲得其軌跡。
通過光球與手柄之間、階段一獲得的手和手柄之間的空間關系,以及階段二采集的光球軌跡,就能獲得手勢、手柄在采集空間中的軌跡。另一方面,通過光球與頭戴之間的空間關系與階段二跟蹤獲得的光球軌跡,就能將手勢、手柄投影到頭戴相機中獲得數據標簽了。Xyd28資訊網——每日最新資訊28at.com
總結
PICO研發團隊始終致力于為全球用戶創造優質的XR技術和產品體驗。手柄小型化設計是XR交互方案設計中的創新性和突破性進展,而PICO自研的Centaur多模態追蹤算法,不僅讓「手柄小型化」完成了技術突破并成功落地,也為后續的人機交互設計提供了新的思路和可能性。Xyd28資訊網——每日最新資訊28at.com
本文鏈接:http://www.tebozhan.com/showinfo-26-12679-0.html自研多模態追蹤算法 PICO 為「手柄小型化」找到新思路
聲明:本網頁內容旨在傳播知識,若有侵權等問題請及時與本網聯系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: OOM內存泄露速查備忘錄
下一篇: 通過Java Record提升代碼質量:簡潔而健壯的數據對象