99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動中國媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

蘋果公布三項AI研究新成果,持續(xù)深耕空間計算助力Vision Pro發(fā)展

   發(fā)布時間:2026-05-12 16:38 作者:江紫萱

近日,科技領(lǐng)域傳來新動態(tài),蘋果公司在空間計算與 Vision Pro 頭顯項目上的進(jìn)展備受關(guān)注。此前有消息稱,蘋果公司內(nèi)部擱置了新款 Vision Pro 的研發(fā),將團(tuán)隊重心轉(zhuǎn)向 Siri 和 AI 智能眼鏡,然而最新公開的三項研究卻表明,蘋果并未放棄 Vision Pro 頭顯項目。

蘋果此次公開的三項研究分別涉及多模態(tài)大模型空間推理評測、美式手語視頻標(biāo)注以及 3D 頭部重建。其中,在機(jī)器學(xué)習(xí)博客發(fā)布的《From Where Things Are to what They’re For:Benchmarking Spatial-Functional Intelligence for Multimodal LLMs》論文頗具亮點。該論文提出了 SFI-Bench,用于測試多模態(tài)大模型對空間布局的理解以及物體功能的認(rèn)知能力。這套視頻基準(zhǔn)包含 134 段室內(nèi)視頻掃描,并整理出 1555 道專家標(biāo)注問題。與以往只測試空間識別的舊方法不同,SFI-Bench 不僅會問模型“這是什么、在哪里”,還會追問“它怎么用、出了故障怎么辦”。例如,讓模型從柜子里找出同品牌數(shù)量最多的一組瓶子,理解洗衣機(jī)當(dāng)前程序如何取消,或者判斷電視遙控器的用途,這些測試更貼近日常家庭場景,也更接近未來空間助手需要處理的真實任務(wù)。在測試結(jié)果中,Google Gemini 3.1 Pro 總分最高,OpenAI GPT-5.4-High 排名第二,Gemini-3.1-Flash-Lite 排名第三。不過,論文也指出,幾乎所有模型都不擅長“帶條件的全局計數(shù)”,并且在空間記憶、功能知識整合以及將眼前畫面與外部知識關(guān)聯(lián)等方面存在明顯限制。

另一項研究《Bootstrapping Sign Language Annotations with Sign Language Models》聚焦于美式手語視頻標(biāo)注。研究團(tuán)隊嘗試?yán)?AI 自動生成候選標(biāo)注,以減少手工標(biāo)注的時間成本。團(tuán)隊建立了近 500 條人工英文字詞到術(shù)語標(biāo)注,并擴(kuò)展到超過 300 小時的 ASL STEM Wiki 和 7.5 小時的 FLEURS-ASL 數(shù)據(jù)。其手指拼寫模型在 FSBoard 上達(dá)到 6.7% CER,在 ASL Citizen 數(shù)據(jù)集上達(dá)到 74% top-1 準(zhǔn)確率。

第三項研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures》則把重點放在了 3D 頭像重建上。蘋果提出了 HeadsUp 方法,能夠從大規(guī)模多攝像頭采集中重建高質(zhì)量的 3D Gaussian 頭部模型。測試使用了包含超過 10000 名受試者的內(nèi)部數(shù)據(jù)集,規(guī)模比現(xiàn)有多視角人頭數(shù)據(jù)集高一個數(shù)量級。這一研究成果可能與 Vision Pro 的 Persona 功能,或者 visionOS 中更自然的人臉捕捉與表情渲染相關(guān)。

蘋果公司全球營銷高級副總裁格雷格·喬斯維亞克(Greg Joswiak)曾表示,Vision Pro 展示了數(shù)字世界與物理世界融合的未來形態(tài),這種融合是必然的。當(dāng)被問及“空間計算”何時能成為主流時,他坦言無法預(yù)測具體時間,但堅信這一發(fā)展方向不可逆轉(zhuǎn)。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新