京東在長視頻生成技術(shù)領(lǐng)域邁出關(guān)鍵一步,正式發(fā)布名為JoyAI-Echo的開源音視頻生成框架。該框架通過創(chuàng)新性技術(shù)方案,針對性解決了角色一致性、聲音穩(wěn)定性及生成效率三大行業(yè)痛點,在實測中展現(xiàn)出顯著優(yōu)勢。
技術(shù)核心在于其構(gòu)建的跨模態(tài)記憶庫系統(tǒng)。在多鏡頭切換過程中,該系統(tǒng)能持續(xù)追蹤并調(diào)用角色外觀特征與語音音色數(shù)據(jù),確保長達5分鐘的視頻中人物形象與聲音保持高度統(tǒng)一。實測數(shù)據(jù)顯示,框架成功避免了傳統(tǒng)模型中常見的"角色變形"問題,視覺與聽覺呈現(xiàn)均達到專業(yè)制作水準(zhǔn)。
研發(fā)團隊通過優(yōu)化訓(xùn)練流程實現(xiàn)性能突破。結(jié)合監(jiān)督微調(diào)(SFT)、跨模態(tài)強化學(xué)習(xí)(RLHF)及分布匹配蒸餾(DMD)技術(shù),在保證生成質(zhì)量的同時大幅提升處理速度。其中DMD算法單環(huán)節(jié)即帶來7.5倍效率提升,使復(fù)雜場景的實時渲染成為可能。
針對創(chuàng)作流程優(yōu)化,框架集成智能導(dǎo)演助手Director Agent。用戶通過自然語言輸入即可完成劇本拆解、角色分配及鏡頭規(guī)劃。當(dāng)需要對特定片段修改時,系統(tǒng)支持局部內(nèi)容重生成,無需整體返工,大幅降低創(chuàng)作門檻與時間成本。
為滿足專業(yè)制作需求,框架配備實時超分辨率模塊。支持將736×1280基礎(chǔ)畫面提升至1152×1920及1472×2560兩種高清格式,單步處理即可實現(xiàn)畫面與音頻的同步精細化。在流媒體傳輸場景下,仍能保持穩(wěn)定的畫質(zhì)輸出表現(xiàn)。
第三方評測數(shù)據(jù)顯示,該框架在跨鏡頭一致性(0.92)、視頻質(zhì)量(0.89)、文本匹配度(0.87)等核心指標(biāo)上均領(lǐng)先行業(yè)。特別在語音內(nèi)容準(zhǔn)確率方面達到0.8646,較同類模型提升12%,展現(xiàn)出在復(fù)雜敘事場景中的技術(shù)優(yōu)勢。
目前項目已實現(xiàn)全代碼開源,開發(fā)者可在GitHub獲取完整代碼庫與訓(xùn)練權(quán)重。京東表示,此舉旨在推動長視頻生成技術(shù)的標(biāo)準(zhǔn)化發(fā)展,為影視制作、數(shù)字營銷等領(lǐng)域提供基礎(chǔ)設(shè)施支持。















