字節與何愷明團隊“同頻共振”：Cola DLM開啟語言模型連續空間新探索

發布時間：2026-05-19 21:23 來源：快訊作者：李娜

大語言模型的發展是否只能依賴“預測下一個token”的路徑？字節跳動與何愷明團隊近期的研究給出了否定答案。雙方不約而同地將目光投向連續語義空間，試圖通過新的建模方式突破傳統框架的局限。字節跳動推出的Cola DLM（Continuous Latent Diffusion Language Model）更以開源形式釋放了論文、代碼和模型權重，引發學術界關注。

傳統大模型通常將不同表達視為獨立樣本學習，例如“今天很開心”與“過得挺愉快”會被分別記憶。字節團隊認為，這種模式忽略了語義的本質——相同含義的句子應收斂到相近的內部表示。Cola DLM的核心創新在于將語義生成與文本翻譯解耦：模型先在連續空間中組織潛在語義，再通過解碼器將其轉化為具體文字。這一過程跳過了離散token的逐步生成，轉而關注語義狀態的形成。

研究團隊構建了專門的Text VAE架構處理語義與文本的轉換：編碼器將離散文本壓縮為連續潛在變量，解碼器則負責還原。與直接操作token嵌入不同，Cola DLM的潛在變量是可概率建模的隨機變量，能夠捕捉整段文本的語義狀態。為避免語義表示退化為“穿馬甲的token”，模型在訓練中凍結編碼器參數，僅讓擴散先驗適應語義空間，并通過BERT風格的掩碼損失防止語義坍塌。

在技術實現上，Cola DLM采用block-causal DiT+Flow Matching組合替代傳統擴散模型。該方案通過學習向量場將簡單分布（如高斯分布）“運輸”至真實語義分布，同時引入塊結構平衡局部語義組織與整體邏輯連貫性。實驗顯示，在約20億參數、2000 EFLOPs計算量的對照中，Cola DLM展現出比自回歸模型和離散擴散模型更穩定的擴展趨勢。

研究團隊將訓練目標拆解為重建、壓縮和擬合三個可獨立診斷的子任務。這種設計使得模型性能優化更具針對性——當生成效果不佳時，可通過指標快速定位是解碼器還原能力不足、語義壓縮信息量不夠，還是先驗分布學習偏差導致。相比之下，傳統自回歸模型將所有目標混雜在單一損失函數中，難以精準定位問題根源。

與何愷明團隊提出的ELF模型相比，Cola DLM展現出不同的技術路徑。ELF在原始嵌入空間直接操作，通過反復迭代優化最終生成文本；而Cola DLM則采用分層架構，由語義部門與文本部門分工協作。盡管方法差異顯著，但兩者均試圖突破“token等于語義”的默認框架，探索更適合語言本質的建模空間。

這項研究對多模態統一具有潛在啟示。當前跨模態建模的障礙之一在于文本的離散性與圖像、視頻的連續性存在鴻溝。Cola DLM通過將文本映射至連續語義空間，為不同模態共享潛在表示提供了可能。研究團隊在博客中強調，這僅是早期嘗試，但連續擴散語言模型已展現出重新定義文本建模方式的潛力。

更多>同類內容