智源“悟界·Emu3”登Nature正刊：自回歸路線或成多模態(tài)世界模型新方向

發(fā)布時間：2026-02-02 14:18 來源：快訊作者：蘇婉清

北京智源人工智能研究院推出的多模態(tài)大模型“悟界·Emu3”近日登上國際頂級學術(shù)期刊《自然》（Nature）正刊，成為繼DeepSeek之后第二個獲此殊榮的中國大模型團隊研究成果。這一突破標志著中國在多模態(tài)人工智能領(lǐng)域的研究邁入國際前沿，為構(gòu)建可擴展、統(tǒng)一的多模態(tài)智能系統(tǒng)提供了全新路徑。

“悟界·Emu3”模型的核心創(chuàng)新在于僅通過“預測下一個token”的自回歸技術(shù)路線，實現(xiàn)了文本、圖像和視頻的統(tǒng)一學習。這一方法摒棄了傳統(tǒng)多模態(tài)模型中復雜的組合式架構(gòu)，以極簡的架構(gòu)設計同時支持生成與感知任務。Nature編輯在點評中指出，該成果在性能上可媲美專用模型，為原生多模態(tài)助手、世界模型及具身智能等方向的發(fā)展奠定了基礎。

自2024年10月發(fā)布以來，Emu3在多項基準測試中表現(xiàn)優(yōu)異。在文本到圖像生成任務中，其性能超越SDXL等擴散模型，接近DALL-E 3等頂尖水平；視頻生成方面，VBench評分達81，超過Open-Sora 1.2；視覺語言理解得分62.1，略高于LLaVA-1.6。研究團隊通過大規(guī)模消融實驗驗證了多模態(tài)學習的規(guī)模定律，證明模型能力隨數(shù)據(jù)規(guī)模增長而顯著提升。

該模型的研發(fā)歷程充滿挑戰(zhàn)。2024年初，團隊面臨技術(shù)路徑選擇的關(guān)鍵決策：是沿用主流的擴散模型架構(gòu)，還是探索自回歸路線的統(tǒng)一可能性。最終，團隊組建了50人的專項攻關(guān)組，以離散token方式重構(gòu)視覺模態(tài)表示，將圖像、文本和視頻統(tǒng)一到同一表示空間中。這一過程中，團隊解決了圖像壓縮效率低、訓練穩(wěn)定性差等技術(shù)難題，歷經(jīng)近一年時間完成模型訓練。

Emu3的架構(gòu)設計體現(xiàn)了“極簡主義”理念。模型基于Transformer解碼器架構(gòu)，擴展了嵌入層以容納視覺標記，通過兩階段優(yōu)化方案實現(xiàn)高效訓練。在推理階段，模型支持無分類器引導和低延遲生成，可自然擴展至機器人操作、多模態(tài)交錯生成等復雜任務。研究團隊還開源了模型代碼和關(guān)鍵技術(shù)，推動社區(qū)持續(xù)創(chuàng)新。

2025年10月，團隊進一步推出Emu3.5版本，實現(xiàn)了從“預測下一個token”到“預測下一個狀態(tài)”的能力躍遷。該版本通過大規(guī)模長時序視頻訓練，學習到時空與因果關(guān)系，在虛擬世界探索任務中超越谷歌Nano Banana等模型，首次提出多模態(tài)Scaling新范式。這一進展為具身智能等物理AI領(lǐng)域提供了重要技術(shù)支撐。

北京智源研究院自成立以來，始終聚焦大模型原始創(chuàng)新。其發(fā)布的“悟道”系列模型曾創(chuàng)下全球最大語言模型紀錄，開源的200余款模型累計下載量超7.6億次。此次Emu3登上Nature正刊，不僅驗證了中國AI研究的技術(shù)實力，也為全球多模態(tài)大模型發(fā)展提供了新思路。隨著開源生態(tài)的完善和產(chǎn)業(yè)鏈的協(xié)同發(fā)展，中國在人工智能基礎研究領(lǐng)域的國際影響力將持續(xù)擴大。

更多>同類內(nèi)容