京東開源JoyAI-Image-Edit模型：攻克空間難題，賦能多元領(lǐng)域AI應(yīng)用升級(jí)

發(fā)布時(shí)間：2026-04-08 11:43 來源：快訊作者：沈瑾瑜

京東探索研究院近日宣布，其自主研發(fā)的圖像編輯模型JoyAI-Image-Edit正式開源，成為全球首個(gè)深度融合空間智能技術(shù)的開源模型。該模型突破傳統(tǒng)AI圖像處理僅限于平面修改的局限，實(shí)現(xiàn)了三維空間重塑能力，其核心推理代碼已完全開放，開發(fā)者可直接用于各類應(yīng)用開發(fā)。

傳統(tǒng)圖像模型常因空間邏輯混亂導(dǎo)致物體變形、光影錯(cuò)亂等問題，而JoyAI-Image-Edit通過構(gòu)建完整的空間理解體系，從相機(jī)坐標(biāo)變換、物體幾何控制到多視角一致性維護(hù)，系統(tǒng)性解決了這些行業(yè)痛點(diǎn)。實(shí)驗(yàn)數(shù)據(jù)顯示，該模型在物體移動(dòng)精度、空間布局合理性等關(guān)鍵指標(biāo)上已達(dá)到國際領(lǐng)先水平，編輯后的圖像能自然呈現(xiàn)遮擋關(guān)系與光影變化，即使進(jìn)行視角切換或物體重組，場景結(jié)構(gòu)依然保持高度真實(shí)。

該模型的創(chuàng)新性體現(xiàn)在三大核心能力：其一，支持通過自然語言精準(zhǔn)控制相機(jī)視角，用戶可指定偏航角、俯仰角等參數(shù)生成新視角圖像；其二，具備空間漫游功能，能連續(xù)生成邏輯連貫的多視角圖像序列，模擬三維場景中的移動(dòng)觀察效果；其三，可對特定物體進(jìn)行位移、縮放等操作，同時(shí)自動(dòng)調(diào)整周邊環(huán)境的光影與遮擋關(guān)系，確保整體場景的物理合理性。這些能力使模型在處理復(fù)雜空間任務(wù)時(shí)表現(xiàn)出色，例如在電商場景中可快速生成多角度商品展示圖，在創(chuàng)意設(shè)計(jì)領(lǐng)域能實(shí)現(xiàn)虛擬場景的自由編輯。

除空間編輯突破外，JoyAI-Image-Edit還兼容15類通用圖像處理功能，涵蓋物體替換、風(fēng)格遷移、細(xì)節(jié)優(yōu)化等高頻需求。通過將空間智能與通用編輯能力深度融合，該模型在長文本渲染、多視角一致性生成等復(fù)雜任務(wù)中展現(xiàn)出顯著優(yōu)勢，可滿足全場景創(chuàng)作需求。例如在3D模型重建領(lǐng)域，模型能根據(jù)單張圖片自動(dòng)推斷物體空間結(jié)構(gòu)，生成多視角一致的三維模型；在具身智能視覺感知方面，其空間理解能力為機(jī)器人環(huán)境感知提供了關(guān)鍵技術(shù)支撐。

目前，該模型已開放代碼與預(yù)訓(xùn)練權(quán)重，支持商業(yè)與學(xué)術(shù)用途。其開源特性將加速空間智能技術(shù)在電商、設(shè)計(jì)、機(jī)器人等領(lǐng)域的落地應(yīng)用，特別是為具身智能研發(fā)提供了低成本、高效率的視覺處理解決方案。隨著開發(fā)者社區(qū)的參與，JoyAI-Image-Edit有望推動(dòng)AI圖像技術(shù)向更復(fù)雜的空間場景延伸，重新定義智能圖像處理的標(biāo)準(zhǔn)與邊界。

更多>同類內(nèi)容