英偉達Cosmos 3問世：全開源全模態(tài)，為物理人工智能發(fā)展注入新動力

發(fā)布時間：2026-06-01 23:13 來源：快訊作者：沈瑾瑜

英偉達今日宣布推出全球首款全開源全模態(tài)大模型——Cosmos 3，這款專為物理人工智能設(shè)計的開放世界基礎(chǔ)模型，通過混合Transformer架構(gòu)實現(xiàn)了視覺推理、世界生成與動作預(yù)測的深度融合。該模型能夠原生處理文本、圖像、視頻、環(huán)境音效及動作軌跡等多模態(tài)數(shù)據(jù)，其物理仿真精度達到行業(yè)領(lǐng)先水平，可將物理AI系統(tǒng)的訓練與評估周期從數(shù)月壓縮至數(shù)日。

針對物理AI領(lǐng)域長期存在的數(shù)據(jù)泛化難題，Cosmos 3創(chuàng)新性地采用雙階段處理機制：先通過推理Transformer解析物體交互規(guī)律、運動軌跡及時空關(guān)聯(lián)，再利用生成類Transformer完成視頻生成與動作預(yù)測。這種架構(gòu)設(shè)計使其能夠基于有限訓練數(shù)據(jù)，在真實場景中實現(xiàn)高效遷移。該模型基于數(shù)十億級多模態(tài)數(shù)據(jù)集訓練，涵蓋文本描述、環(huán)境圖像、動態(tài)視頻、空間音效及機械動作軌跡等多元數(shù)據(jù)類型，顯著降低了開發(fā)者構(gòu)建物理AI系統(tǒng)的數(shù)據(jù)門檻與成本。

為加速技術(shù)生態(tài)建設(shè)，英偉達同步發(fā)起"宇宙聯(lián)盟"，聯(lián)合Agile Robots、Black Forest Labs、Generalist等六家頂尖機構(gòu)，共同推進世界模型技術(shù)研發(fā)。聯(lián)盟成員將共享預(yù)訓練模型資源，并針對機器人控制、自動駕駛等垂直領(lǐng)域開展聯(lián)合優(yōu)化。英偉達CEO黃仁勛強調(diào)："當多模態(tài)推理與世界模型實現(xiàn)突破，物理AI的變革浪潮已不可阻擋。Cosmos 3的開源將賦能開發(fā)者跨越技術(shù)鴻溝，打造具備真實世界感知與決策能力的智能系統(tǒng)。"

在權(quán)威評測中，Cosmos 3展現(xiàn)卓越性能：其世界生成精度在Artificial Analysis等四大基準測試中登頂，動作策略能力領(lǐng)跑RoboLab系列榜單，視覺理解指標刷新VANTAGE-Bench紀錄。針對不同應(yīng)用場景，該模型提供三大專用版本：追求極致精度的Super版支持機器人與自動駕駛模型二次訓練；輕量化Nano版可在數(shù)秒內(nèi)完成視頻解析與動作推理；即將發(fā)布的Edge版將實現(xiàn)邊緣設(shè)備實時推理，滿足工業(yè)巡檢、物流分揀等低延遲場景需求。

開發(fā)者可通過三種模式調(diào)用Cosmos 3能力：作為多模態(tài)圖文大模型實現(xiàn)跨模態(tài)理解，作為世界模型構(gòu)建物理環(huán)境仿真系統(tǒng)，或作為動作模型主干網(wǎng)絡(luò)訓練專項任務(wù)機器人。目前Super與Nano版本已開放下載，配套開發(fā)工具包包含數(shù)據(jù)預(yù)處理管道、模型微調(diào)指南及200+預(yù)置場景模板，幫助開發(fā)者快速構(gòu)建定制化物理AI解決方案。

更多>同類內(nèi)容