蘋果公布三項AI研究新成果，持續(xù)深耕空間計算助力Vision Pro發(fā)展

發(fā)布時間：2026-05-12 16:38 來源：互聯(lián)網(wǎng) 作者：江紫萱

近日，科技領(lǐng)域傳來新動態(tài)，蘋果公司在空間計算與 Vision Pro 頭顯項目上的進(jìn)展備受關(guān)注。此前有消息稱，蘋果公司內(nèi)部擱置了新款 Vision Pro 的研發(fā)，將團(tuán)隊重心轉(zhuǎn)向 Siri 和 AI 智能眼鏡，然而最新公開的三項研究卻表明，蘋果并未放棄 Vision Pro 頭顯項目。

蘋果此次公開的三項研究分別涉及多模態(tài)大模型空間推理評測、美式手語視頻標(biāo)注以及 3D 頭部重建。其中，在機(jī)器學(xué)習(xí)博客發(fā)布的《From Where Things Are to what They’re For：Benchmarking Spatial-Functional Intelligence for Multimodal LLMs》論文頗具亮點。該論文提出了 SFI-Bench，用于測試多模態(tài)大模型對空間布局的理解以及物體功能的認(rèn)知能力。這套視頻基準(zhǔn)包含 134 段室內(nèi)視頻掃描，并整理出 1555 道專家標(biāo)注問題。與以往只測試空間識別的舊方法不同，SFI-Bench 不僅會問模型“這是什么、在哪里”，還會追問“它怎么用、出了故障怎么辦”。例如，讓模型從柜子里找出同品牌數(shù)量最多的一組瓶子，理解洗衣機(jī)當(dāng)前程序如何取消，或者判斷電視遙控器的用途，這些測試更貼近日常家庭場景，也更接近未來空間助手需要處理的真實任務(wù)。在測試結(jié)果中，Google Gemini 3.1 Pro 總分最高，OpenAI GPT-5.4-High 排名第二，Gemini-3.1-Flash-Lite 排名第三。不過，論文也指出，幾乎所有模型都不擅長“帶條件的全局計數(shù)”，并且在空間記憶、功能知識整合以及將眼前畫面與外部知識關(guān)聯(lián)等方面存在明顯限制。

另一項研究《Bootstrapping Sign Language Annotations with Sign Language Models》聚焦于美式手語視頻標(biāo)注。研究團(tuán)隊嘗試?yán)?AI 自動生成候選標(biāo)注，以減少手工標(biāo)注的時間成本。團(tuán)隊建立了近 500 條人工英文字詞到術(shù)語標(biāo)注，并擴(kuò)展到超過 300 小時的 ASL STEM Wiki 和 7.5 小時的 FLEURS-ASL 數(shù)據(jù)。其手指拼寫模型在 FSBoard 上達(dá)到 6.7％ CER，在 ASL Citizen 數(shù)據(jù)集上達(dá)到 74％ top-1 準(zhǔn)確率。

第三項研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures》則把重點放在了 3D 頭像重建上。蘋果提出了 HeadsUp 方法，能夠從大規(guī)模多攝像頭采集中重建高質(zhì)量的 3D Gaussian 頭部模型。測試使用了包含超過 10000 名受試者的內(nèi)部數(shù)據(jù)集，規(guī)模比現(xiàn)有多視角人頭數(shù)據(jù)集高一個數(shù)量級。這一研究成果可能與 Vision Pro 的 Persona 功能，或者 visionOS 中更自然的人臉捕捉與表情渲染相關(guān)。

蘋果公司全球營銷高級副總裁格雷格·喬斯維亞克（Greg Joswiak）曾表示，Vision Pro 展示了數(shù)字世界與物理世界融合的未來形態(tài)，這種融合是必然的。當(dāng)被問及“空間計算”何時能成為主流時，他坦言無法預(yù)測具體時間，但堅信這一發(fā)展方向不可逆轉(zhuǎn)。

更多>同類內(nèi)容