5 月 14 日消息,科技媒體 9to5Mac 昨日(5 月 13 日)發(fā)布博文,報道稱蘋果機器學習團隊攜手南京大學和香港科技大學,推出名為 Matrix3D 的 3D AI 模型,專注于從少數(shù) 2D 照片中重建真實世界的物體和場景。
用戶只需提供幾張圖像,模型就能自動生成高質(zhì)量的 3D 輸出。這不僅簡化了操作,還為應用領(lǐng)域打開了新機遇,進一步推動了 AI 領(lǐng)域的協(xié)作。
攝影測量技術(shù)利用照片進行測量,從而創(chuàng)建 3D 模型或地圖。目前的流程依賴姿態(tài)估計和深度預測等多個獨立模型來處理具體步驟,而這種分段方法容易導致低效和錯誤。
Matrix3D 則革新了這一體系。它一次性整合圖像、相機參數(shù)(如角度和焦距)以及深度數(shù)據(jù)等所有過程,通過統(tǒng)一架構(gòu)處理這些元素,減少了中間環(huán)節(jié),讓重建過程更流暢、更可靠。研究者指出,這種整合設計顯著降低了人為錯誤的風險,并提高了整體性能。
在訓練策略方面,研究者采用了掩碼學習方法,類似于早期 Transformer 基礎 AI 系統(tǒng)。這種技術(shù)借鑒了 ChatGPT 早期版本的訓練理念,在訓練過程中隨機隱藏部分輸入數(shù)據(jù),迫使模型學會“填充空白”。這強化了模型的適應性。即使數(shù)據(jù)集較小或不完整,Matrix3D 也能有效學習關(guān)鍵特征。
測試結(jié)果證明了 Matrix3D 的強大表現(xiàn)。用戶只需三張輸入圖像,該模型就能生成詳細的 3D 重建,包括物體和整個環(huán)境,為沉浸式技術(shù)帶來了實際應用潛力。附上演示視頻如下:
例如,在 Apple Vision Pro 等頭顯設備中,Matrix3D 可以創(chuàng)建逼真的虛擬場景,提升用戶體驗。研究者表示,這種能力將加速元宇宙和增強現(xiàn)實的發(fā)展。
參考
Matrix3D: Large Photogrammetry Model All-in-One
本文鏈接:http://www.tebozhan.com/showinfo-45-12842-0.html3 張照片 → 全景 3D:蘋果攜手推出革命性 AI 模型 Matrix3D,簡化 3D 重建過程
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com