資訊
`
2025/5/14 08:47
3 張照片 → 全景 3D:蘋果攜手推出革命性 AI 模型 Matrix3D,簡(jiǎn)化 3D 重建過程
0
0

科技媒體 9to5Mac 昨日(5 月 13 日)發(fā)布博文,報(bào)道稱蘋果機(jī)器學(xué)習(xí)團(tuán)隊(duì)攜手南京大學(xué)和香港科技大學(xué),推出名為 Matrix3D 的 3D AI 模型,專注于從少數(shù) 2D 照片中重建真實(shí)世界的物體和場(chǎng)景。

用戶只需提供幾張圖像,模型就能自動(dòng)生成高質(zhì)量的 3D 輸出。這不僅簡(jiǎn)化了操作,還為應(yīng)用領(lǐng)域打開了新機(jī)遇,進(jìn)一步推動(dòng)了 AI 領(lǐng)域的協(xié)作。

攝影測(cè)量技術(shù)利用照片進(jìn)行測(cè)量,從而創(chuàng)建 3D 模型或地圖。目前的流程依賴姿態(tài)估計(jì)和深度預(yù)測(cè)等多個(gè)獨(dú)立模型來處理具體步驟,而這種分段方法容易導(dǎo)致低效和錯(cuò)誤。

Matrix3D 則革新了這一體系。它一次性整合圖像、相機(jī)參數(shù)(如角度和焦距)以及深度數(shù)據(jù)等所有過程,通過統(tǒng)一架構(gòu)處理這些元素,減少了中間環(huán)節(jié),讓重建過程更流暢、更可靠。研究者指出,這種整合設(shè)計(jì)顯著降低了人為錯(cuò)誤的風(fēng)險(xiǎn),并提高了整體性能。

在訓(xùn)練策略方面,研究者采用了掩碼學(xué)習(xí)方法,類似于早期 Transformer 基礎(chǔ) AI 系統(tǒng)。這種技術(shù)借鑒了 ChatGPT 早期版本的訓(xùn)練理念,在訓(xùn)練過程中隨機(jī)隱藏部分輸入數(shù)據(jù),迫使模型學(xué)會(huì)“填充空白”。這強(qiáng)化了模型的適應(yīng)性。即使數(shù)據(jù)集較小或不完整,Matrix3D 也能有效學(xué)習(xí)關(guān)鍵特征。

測(cè)試結(jié)果證明了 Matrix3D 的強(qiáng)大表現(xiàn)。用戶只需三張輸入圖像,該模型就能生成詳細(xì)的 3D 重建,包括物體和整個(gè)環(huán)境,為沉浸式技術(shù)帶來了實(shí)際應(yīng)用潛力。IT之家附上演示視頻如下:

例如,在 Apple Vision Pro 等頭顯設(shè)備中,Matrix3D 可以創(chuàng)建逼真的虛擬場(chǎng)景,提升用戶體驗(yàn)。研究者表示,這種能力將加速元宇宙和增強(qiáng)現(xiàn)實(shí)的發(fā)展。

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

給作者點(diǎn)贊
0 VS 0
寫得不太好

C114簡(jiǎn)介     聯(lián)系我們     網(wǎng)站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號(hào)-4

C114通信網(wǎng)版權(quán)所有 舉報(bào)電話:021-54451141 用戶注銷