英偉達今日宣布推出全球首款全開源全模態(tài)大模型——Cosmos 3,這款專為物理人工智能設(shè)計的開放世界基礎(chǔ)模型,通過混合Transformer架構(gòu)實現(xiàn)了視覺推理、世界生成與動作預(yù)測的深度融合。該模型能夠原生處理文本、圖像、視頻、環(huán)境音效及動作軌跡等多模態(tài)數(shù)據(jù),其物理仿真精度達到行業(yè)領(lǐng)先水平,可將物理AI系統(tǒng)的訓練與評估周期從數(shù)月壓縮至數(shù)日。
針對物理AI領(lǐng)域長期存在的數(shù)據(jù)泛化難題,Cosmos 3創(chuàng)新性地采用雙階段處理機制:先通過推理Transformer解析物體交互規(guī)律、運動軌跡及時空關(guān)聯(lián),再利用生成類Transformer完成視頻生成與動作預(yù)測。這種架構(gòu)設(shè)計使其能夠基于有限訓練數(shù)據(jù),在真實場景中實現(xiàn)高效遷移。該模型基于數(shù)十億級多模態(tài)數(shù)據(jù)集訓練,涵蓋文本描述、環(huán)境圖像、動態(tài)視頻、空間音效及機械動作軌跡等多元數(shù)據(jù)類型,顯著降低了開發(fā)者構(gòu)建物理AI系統(tǒng)的數(shù)據(jù)門檻與成本。
為加速技術(shù)生態(tài)建設(shè),英偉達同步發(fā)起"宇宙聯(lián)盟",聯(lián)合Agile Robots、Black Forest Labs、Generalist等六家頂尖機構(gòu),共同推進世界模型技術(shù)研發(fā)。聯(lián)盟成員將共享預(yù)訓練模型資源,并針對機器人控制、自動駕駛等垂直領(lǐng)域開展聯(lián)合優(yōu)化。英偉達CEO黃仁勛強調(diào):"當多模態(tài)推理與世界模型實現(xiàn)突破,物理AI的變革浪潮已不可阻擋。Cosmos 3的開源將賦能開發(fā)者跨越技術(shù)鴻溝,打造具備真實世界感知與決策能力的智能系統(tǒng)。"
在權(quán)威評測中,Cosmos 3展現(xiàn)卓越性能:其世界生成精度在Artificial Analysis等四大基準測試中登頂,動作策略能力領(lǐng)跑RoboLab系列榜單,視覺理解指標刷新VANTAGE-Bench紀錄。針對不同應(yīng)用場景,該模型提供三大專用版本:追求極致精度的Super版支持機器人與自動駕駛模型二次訓練;輕量化Nano版可在數(shù)秒內(nèi)完成視頻解析與動作推理;即將發(fā)布的Edge版將實現(xiàn)邊緣設(shè)備實時推理,滿足工業(yè)巡檢、物流分揀等低延遲場景需求。
開發(fā)者可通過三種模式調(diào)用Cosmos 3能力:作為多模態(tài)圖文大模型實現(xiàn)跨模態(tài)理解,作為世界模型構(gòu)建物理環(huán)境仿真系統(tǒng),或作為動作模型主干網(wǎng)絡(luò)訓練專項任務(wù)機器人。目前Super與Nano版本已開放下載,配套開發(fā)工具包包含數(shù)據(jù)預(yù)處理管道、模型微調(diào)指南及200+預(yù)置場景模板,幫助開發(fā)者快速構(gòu)建定制化物理AI解決方案。















