99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動(dòng)中國(guó)媒體行業(yè)創(chuàng)新,促進(jìn)業(yè)內(nèi)人士交流分享!

螞蟻靈波科技開源世界模型LingBot-World,長(zhǎng)時(shí)生成穩(wěn)定交互能力直逼谷歌Genie3

   發(fā)布時(shí)間:2026-01-30 03:05 作者:趙磊

螞蟻靈波科技近日宣布推出并開源其自主研發(fā)的世界模型LingBot-World,這一框架專為交互式環(huán)境模擬設(shè)計(jì),通過(guò)高保真、可控且邏輯一致的模擬能力,為生成式AI與具身智能的融合提供了新的技術(shù)路徑。該模型在視頻生成穩(wěn)定性、動(dòng)態(tài)交互響應(yīng)及長(zhǎng)時(shí)序一致性等核心指標(biāo)上達(dá)到行業(yè)領(lǐng)先水平,部分能力已接近谷歌Genie 3的表現(xiàn)。

針對(duì)視頻生成領(lǐng)域長(zhǎng)期存在的“長(zhǎng)時(shí)漂移”難題,LingBot-World通過(guò)多階段訓(xùn)練架構(gòu)與并行計(jì)算優(yōu)化,實(shí)現(xiàn)了近10分鐘的連續(xù)穩(wěn)定輸出。在極端測(cè)試中,即使鏡頭移開60秒后返回,模型仍能保持場(chǎng)景中物體結(jié)構(gòu)與空間關(guān)系的完整性。例如,在高動(dòng)態(tài)交通場(chǎng)景中,車輛形態(tài)與道路布局在長(zhǎng)時(shí)間交互后依然保持精準(zhǔn)對(duì)應(yīng);城市建筑群在晝夜交替模擬中,門窗結(jié)構(gòu)與外墻紋理均未出現(xiàn)扭曲或消失現(xiàn)象。這種突破為復(fù)雜任務(wù)訓(xùn)練提供了可靠的數(shù)字仿真環(huán)境。

交互性能方面,該模型支持16 FPS的實(shí)時(shí)生成吞吐量,端到端響應(yīng)延遲控制在1秒以內(nèi)。用戶可通過(guò)鍵盤、鼠標(biāo)或文本指令直接操控虛擬角色與相機(jī)視角,系統(tǒng)能即時(shí)反饋天氣變化、風(fēng)格遷移等環(huán)境調(diào)整,同時(shí)確保所有操作不破壞場(chǎng)景的幾何一致性。在虛幻引擎合成的純凈數(shù)據(jù)訓(xùn)練下,模型甚至能理解“推開窗戶會(huì)引入自然光”這類物理因果關(guān)系,使交互行為更具真實(shí)感。

為解決交互數(shù)據(jù)稀缺問(wèn)題,研發(fā)團(tuán)隊(duì)采用混合采集策略:一方面從海量網(wǎng)絡(luò)視頻中篩選多樣化場(chǎng)景,另一方面通過(guò)游戲引擎與合成管線生成無(wú)UI干擾的高質(zhì)量數(shù)據(jù)。這種數(shù)據(jù)構(gòu)建方式使模型具備強(qiáng)大的零樣本泛化能力——僅需輸入單張城市街景照片或游戲截圖,即可自動(dòng)生成對(duì)應(yīng)的可交互視頻流,無(wú)需針對(duì)特定場(chǎng)景重新訓(xùn)練。在機(jī)器人導(dǎo)航測(cè)試中,模型成功模擬了從繁華商業(yè)區(qū)到老舊居民區(qū)的連續(xù)路徑規(guī)劃,展現(xiàn)了跨場(chǎng)景適應(yīng)能力。

在具身智能應(yīng)用層面,LingBot-World通過(guò)數(shù)字孿生技術(shù)構(gòu)建了低成本試錯(cuò)空間。智能體可在虛擬環(huán)境中預(yù)演抓取、搬運(yùn)等物理操作,系統(tǒng)會(huì)精準(zhǔn)模擬物體受力變形、碰撞反饋等物理效應(yīng)。更關(guān)鍵的是,模型支持光照條件、物體擺放位置等參數(shù)的動(dòng)態(tài)調(diào)整,這種場(chǎng)景多樣化生成能力顯著提升了算法在真實(shí)世界中的遷移效率。例如,在倉(cāng)儲(chǔ)機(jī)器人訓(xùn)練中,通過(guò)隨機(jī)改變貨架布局與光照強(qiáng)度,模型幫助算法快速適應(yīng)不同倉(cāng)庫(kù)環(huán)境。

隨著LingBot-World的開源,開發(fā)者可通過(guò)Hugging Face、魔搭社區(qū)及GitHub獲取完整代碼庫(kù)與技術(shù)文檔。該模型的推出標(biāo)志著螞蟻在具身智能領(lǐng)域完成重要布局,其“基礎(chǔ)模型-通用應(yīng)用-實(shí)體交互”的技術(shù)棧正逐步清晰。通過(guò)將物理感知能力注入數(shù)字世界,這項(xiàng)技術(shù)有望推動(dòng)機(jī)器人學(xué)習(xí)、自動(dòng)駕駛仿真等產(chǎn)業(yè)進(jìn)入開放場(chǎng)景適應(yīng)的新階段。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新