字節(jié)跳動(dòng)推出Seedance 1.5 pro模型：多語種音視頻同步生成新突破

發(fā)布時(shí)間：2025-12-17 02:53 來源：快訊作者：顧青青

字節(jié)跳動(dòng)近日正式推出全新音視頻生成模型Seedance 1.5 pro，這款模型實(shí)現(xiàn)了從文本或圖像直接生成帶有同步音頻的動(dòng)態(tài)視頻，標(biāo)志著音視頻聯(lián)合生成技術(shù)取得重要突破。該模型不僅支持多語言內(nèi)容生成，還能精準(zhǔn)模擬方言語音特征，為影視、廣告、游戲等領(lǐng)域的內(nèi)容創(chuàng)作提供了全新工具。

技術(shù)團(tuán)隊(duì)介紹，Seedance 1.5 pro在音畫同步方面進(jìn)行了深度優(yōu)化，通過創(chuàng)新算法顯著提升了口型匹配度、語調(diào)自然度與表演節(jié)奏的協(xié)調(diào)性。模型支持中文、英文、日文等主流語言，并具備模擬四川話、粵語等方言語音特征的能力，使生成內(nèi)容更具地域特色。在視頻生成層面，該模型突破傳統(tǒng)固定鏡頭模式，能夠自主完成長鏡頭跟隨、希區(qū)柯克式變焦等復(fù)雜運(yùn)鏡效果，有效增強(qiáng)了畫面的敘事張力和視覺沖擊力。

該模型采用基于MMDiT架構(gòu)的音視頻聯(lián)合生成框架，結(jié)合多階段數(shù)據(jù)鏈路優(yōu)化與強(qiáng)化學(xué)習(xí)技術(shù)，實(shí)現(xiàn)了從文本描述到完整音視頻內(nèi)容的自動(dòng)化生成。測試數(shù)據(jù)顯示，在影視創(chuàng)作、廣告制作、短劇開發(fā)及游戲動(dòng)畫等應(yīng)用場景中，生成內(nèi)容在指令遵循準(zhǔn)確率、音質(zhì)清晰度等核心指標(biāo)上均有顯著提升。不過技術(shù)團(tuán)隊(duì)也坦言，當(dāng)前模型在處理復(fù)雜物理運(yùn)動(dòng)場景的穩(wěn)定性、多角色對話的邏輯連貫性等方面仍存在優(yōu)化空間。

目前，Seedance 1.5 pro已向特定行業(yè)合作伙伴開放測試，其生成的內(nèi)容在保持創(chuàng)作自由度的同時(shí)，大幅縮短了傳統(tǒng)音視頻制作流程。這項(xiàng)技術(shù)不僅為專業(yè)內(nèi)容創(chuàng)作者提供了高效工具，也為普通用戶降低音視頻創(chuàng)作門檻開辟了新路徑。隨著模型持續(xù)迭代優(yōu)化，未來有望在更多領(lǐng)域展現(xiàn)其技術(shù)價(jià)值。

更多>同類內(nèi)容