大語言模型的發展是否只能依賴“預測下一個token”的路徑?字節跳動與何愷明團隊近期的研究給出了否定答案。雙方不約而同地將目光投向連續語義空間,試圖通過新的建模方式突破傳統框架的局限。字節跳動推出的Cola DLM(Continuous Latent Diffusion Language Model)更以開源形式釋放了論文、代碼和模型權重,引發學術界關注。
傳統大模型通常將不同表達視為獨立樣本學習,例如“今天很開心”與“過得挺愉快”會被分別記憶。字節團隊認為,這種模式忽略了語義的本質——相同含義的句子應收斂到相近的內部表示。Cola DLM的核心創新在于將語義生成與文本翻譯解耦:模型先在連續空間中組織潛在語義,再通過解碼器將其轉化為具體文字。這一過程跳過了離散token的逐步生成,轉而關注語義狀態的形成。
研究團隊構建了專門的Text VAE架構處理語義與文本的轉換:編碼器將離散文本壓縮為連續潛在變量,解碼器則負責還原。與直接操作token嵌入不同,Cola DLM的潛在變量是可概率建模的隨機變量,能夠捕捉整段文本的語義狀態。為避免語義表示退化為“穿馬甲的token”,模型在訓練中凍結編碼器參數,僅讓擴散先驗適應語義空間,并通過BERT風格的掩碼損失防止語義坍塌。
在技術實現上,Cola DLM采用block-causal DiT+Flow Matching組合替代傳統擴散模型。該方案通過學習向量場將簡單分布(如高斯分布)“運輸”至真實語義分布,同時引入塊結構平衡局部語義組織與整體邏輯連貫性。實驗顯示,在約20億參數、2000 EFLOPs計算量的對照中,Cola DLM展現出比自回歸模型和離散擴散模型更穩定的擴展趨勢。
研究團隊將訓練目標拆解為重建、壓縮和擬合三個可獨立診斷的子任務。這種設計使得模型性能優化更具針對性——當生成效果不佳時,可通過指標快速定位是解碼器還原能力不足、語義壓縮信息量不夠,還是先驗分布學習偏差導致。相比之下,傳統自回歸模型將所有目標混雜在單一損失函數中,難以精準定位問題根源。
與何愷明團隊提出的ELF模型相比,Cola DLM展現出不同的技術路徑。ELF在原始嵌入空間直接操作,通過反復迭代優化最終生成文本;而Cola DLM則采用分層架構,由語義部門與文本部門分工協作。盡管方法差異顯著,但兩者均試圖突破“token等于語義”的默認框架,探索更適合語言本質的建模空間。
這項研究對多模態統一具有潛在啟示。當前跨模態建模的障礙之一在于文本的離散性與圖像、視頻的連續性存在鴻溝。Cola DLM通過將文本映射至連續語義空間,為不同模態共享潛在表示提供了可能。研究團隊在博客中強調,這僅是早期嘗試,但連續擴散語言模型已展現出重新定義文本建模方式的潛力。















