99热都是精品|亚洲精品精华液一区|日本综合视频|wallpaper原神18进入|国产农村一国产农村|穿越火线 兰|寡妇的肉体完整版

媒體界 - 推動中國媒體行業創新,促進業內人士交流分享!

Soul開源SoulX-FlashTalk:14B大模型助力數字人亞秒級實時生成與全場景應用

   發布時間:2026-05-21 15:11 作者:胡穎

近日,Soul App AI團隊(Soul AI Lab)宣布開源其自主研發的實時數字人生成模型SoulX-FlashTalk,為行業帶來突破性技術方案。該模型以140億參數規模實現0.87秒亞秒級響應、32幀/秒高幀率輸出,并支持超長視頻穩定生成,標志著大參數量數字人技術正式進入可商用階段。這一成果不僅解決了傳統數字人技術中延遲高、畫面卡頓等痛點,更通過多項創新技術重新定義了實時交互體驗標準。

技術突破方面,SoulX-FlashTalk通過全棧加速引擎實現性能躍升。其首幀生成延遲較行業平均水平降低72%,在視頻通話、直播互動等場景中可實現"零感知"響應。模型采用14B超大DiT架構,推理吞吐量達32fps,遠超直播行業25fps的基準要求,確保畫面流暢度。針對長視頻生成中的身份漂移問題,團隊研發的自糾正雙向蒸餾技術通過多步回溯機制實時修正誤差,配合雙向注意力機制同時參考前后文信息,使數字人在超長直播中保持口型、面部特征與背景的高度一致。

在動作生成領域,該模型突破傳統面部驅動局限,支持音頻驅動的全身動態生成。通過14B DiT建模能力,模型可精準呈現手部細節,消除畸形與模糊現象,動作自然度提升40%的同時保持99.22%的身份一致性。技術實現上,團隊采用兩階段訓練策略:第一階段通過動態長寬比分桶微調優化時空適配性;第二階段運用DMD框架壓縮采樣步數,結合隨機截斷策略實現顯存高效利用。全棧加速引擎集成混合序列并行、算子級優化等創新方案,最終達成亞秒級延遲與32fps穩定輸出的雙重突破。

實測數據顯示,在TalkBench-Short評測中,SoulX-FlashTalk的ASE評分達3.51、IQA評分4.79,口型同步指標Sync-C為1.47;長視頻生成場景下Sync-C提升至1.61,且全程維持32fps輸出。這些數據全面領先行業主流模型,特別是在電商直播、短視頻制作等商用場景中,可有效解決畫質模糊、口型錯位等問題,幫助企業降低60%以上的運營成本。此前,該團隊開源的語音合成模型SoulX-Podcast已獲HuggingFace TTS趨勢榜首位,GitHub星標數突破3100,此次開源標志著Soul在AI+社交領域的技術布局進入新階段。

 
 
更多>同類內容
全站最新
熱門內容
本欄最新