字節(jié)跳動(dòng)近日正式推出全新音視頻生成模型Seedance 1.5 pro,這款模型實(shí)現(xiàn)了從文本或圖像直接生成帶有同步音頻的動(dòng)態(tài)視頻,標(biāo)志著音視頻聯(lián)合生成技術(shù)取得重要突破。該模型不僅支持多語言內(nèi)容生成,還能精準(zhǔn)模擬方言語音特征,為影視、廣告、游戲等領(lǐng)域的內(nèi)容創(chuàng)作提供了全新工具。
技術(shù)團(tuán)隊(duì)介紹,Seedance 1.5 pro在音畫同步方面進(jìn)行了深度優(yōu)化,通過創(chuàng)新算法顯著提升了口型匹配度、語調(diào)自然度與表演節(jié)奏的協(xié)調(diào)性。模型支持中文、英文、日文等主流語言,并具備模擬四川話、粵語等方言語音特征的能力,使生成內(nèi)容更具地域特色。在視頻生成層面,該模型突破傳統(tǒng)固定鏡頭模式,能夠自主完成長鏡頭跟隨、希區(qū)柯克式變焦等復(fù)雜運(yùn)鏡效果,有效增強(qiáng)了畫面的敘事張力和視覺沖擊力。
該模型采用基于MMDiT架構(gòu)的音視頻聯(lián)合生成框架,結(jié)合多階段數(shù)據(jù)鏈路優(yōu)化與強(qiáng)化學(xué)習(xí)技術(shù),實(shí)現(xiàn)了從文本描述到完整音視頻內(nèi)容的自動(dòng)化生成。測試數(shù)據(jù)顯示,在影視創(chuàng)作、廣告制作、短劇開發(fā)及游戲動(dòng)畫等應(yīng)用場景中,生成內(nèi)容在指令遵循準(zhǔn)確率、音質(zhì)清晰度等核心指標(biāo)上均有顯著提升。不過技術(shù)團(tuán)隊(duì)也坦言,當(dāng)前模型在處理復(fù)雜物理運(yùn)動(dòng)場景的穩(wěn)定性、多角色對話的邏輯連貫性等方面仍存在優(yōu)化空間。
目前,Seedance 1.5 pro已向特定行業(yè)合作伙伴開放測試,其生成的內(nèi)容在保持創(chuàng)作自由度的同時(shí),大幅縮短了傳統(tǒng)音視頻制作流程。這項(xiàng)技術(shù)不僅為專業(yè)內(nèi)容創(chuàng)作者提供了高效工具,也為普通用戶降低音視頻創(chuàng)作門檻開辟了新路徑。隨著模型持續(xù)迭代優(yōu)化,未來有望在更多領(lǐng)域展現(xiàn)其技術(shù)價(jià)值。















