京東探索研究院近日宣布,其自主研發(fā)的圖像編輯模型JoyAI-Image-Edit正式開源,成為全球首個(gè)深度融合空間智能技術(shù)的開源模型。該模型突破傳統(tǒng)AI圖像處理僅限于平面修改的局限,實(shí)現(xiàn)了三維空間重塑能力,其核心推理代碼已完全開放,開發(fā)者可直接用于各類應(yīng)用開發(fā)。
傳統(tǒng)圖像模型常因空間邏輯混亂導(dǎo)致物體變形、光影錯(cuò)亂等問題,而JoyAI-Image-Edit通過構(gòu)建完整的空間理解體系,從相機(jī)坐標(biāo)變換、物體幾何控制到多視角一致性維護(hù),系統(tǒng)性解決了這些行業(yè)痛點(diǎn)。實(shí)驗(yàn)數(shù)據(jù)顯示,該模型在物體移動(dòng)精度、空間布局合理性等關(guān)鍵指標(biāo)上已達(dá)到國際領(lǐng)先水平,編輯后的圖像能自然呈現(xiàn)遮擋關(guān)系與光影變化,即使進(jìn)行視角切換或物體重組,場景結(jié)構(gòu)依然保持高度真實(shí)。
該模型的創(chuàng)新性體現(xiàn)在三大核心能力:其一,支持通過自然語言精準(zhǔn)控制相機(jī)視角,用戶可指定偏航角、俯仰角等參數(shù)生成新視角圖像;其二,具備空間漫游功能,能連續(xù)生成邏輯連貫的多視角圖像序列,模擬三維場景中的移動(dòng)觀察效果;其三,可對特定物體進(jìn)行位移、縮放等操作,同時(shí)自動(dòng)調(diào)整周邊環(huán)境的光影與遮擋關(guān)系,確保整體場景的物理合理性。這些能力使模型在處理復(fù)雜空間任務(wù)時(shí)表現(xiàn)出色,例如在電商場景中可快速生成多角度商品展示圖,在創(chuàng)意設(shè)計(jì)領(lǐng)域能實(shí)現(xiàn)虛擬場景的自由編輯。
除空間編輯突破外,JoyAI-Image-Edit還兼容15類通用圖像處理功能,涵蓋物體替換、風(fēng)格遷移、細(xì)節(jié)優(yōu)化等高頻需求。通過將空間智能與通用編輯能力深度融合,該模型在長文本渲染、多視角一致性生成等復(fù)雜任務(wù)中展現(xiàn)出顯著優(yōu)勢,可滿足全場景創(chuàng)作需求。例如在3D模型重建領(lǐng)域,模型能根據(jù)單張圖片自動(dòng)推斷物體空間結(jié)構(gòu),生成多視角一致的三維模型;在具身智能視覺感知方面,其空間理解能力為機(jī)器人環(huán)境感知提供了關(guān)鍵技術(shù)支撐。
目前,該模型已開放代碼與預(yù)訓(xùn)練權(quán)重,支持商業(yè)與學(xué)術(shù)用途。其開源特性將加速空間智能技術(shù)在電商、設(shè)計(jì)、機(jī)器人等領(lǐng)域的落地應(yīng)用,特別是為具身智能研發(fā)提供了低成本、高效率的視覺處理解決方案。隨著開發(fā)者社區(qū)的參與,JoyAI-Image-Edit有望推動(dòng)AI圖像技術(shù)向更復(fù)雜的空間場景延伸,重新定義智能圖像處理的標(biāo)準(zhǔn)與邊界。















