螞蟻百靈Ling-2.6-flash模型揭曉：高效推理，百萬字長篇輕松生成

發(fā)布時間：2026-04-22 18:03 來源：快訊作者：孫明

螞蟻集團(tuán)旗下百靈團(tuán)隊近日宣布，其研發(fā)的Instruct模型Ling-2.6-flash正式對外發(fā)布。這款總參數(shù)量達(dá)104B、激活參數(shù)7.4B的模型此前以匿名形式在OpenRouter平臺測試，連續(xù)多日占據(jù)熱榜首位，日均tokens調(diào)用量突破百億級別，引發(fā)開發(fā)者社區(qū)廣泛關(guān)注。

技術(shù)團(tuán)隊通過引入混合線性架構(gòu)，使模型在4卡H20硬件環(huán)境下實現(xiàn)每秒340tokens的推理速度，Prefill吞吐量達(dá)到同類產(chǎn)品Nemotron-3-Super的2.2倍。在token效率優(yōu)化方面，該模型在Artificial Analysis完整評測中僅消耗15M tokens，較主流模型降低90%以上，形成顯著的智效比優(yōu)勢。針對Agent場景的定向增強訓(xùn)練，使其在工具調(diào)用、多步規(guī)劃等核心能力上達(dá)到同尺寸模型領(lǐng)先水平。

實測數(shù)據(jù)顯示，在前端開發(fā)任務(wù)中，模型能自動規(guī)劃網(wǎng)站核心組件并添加明暗模式切換等擴(kuò)展功能，1分鐘內(nèi)完成原型開發(fā)。當(dāng)用戶要求修改主色調(diào)時，模型可在10秒內(nèi)精準(zhǔn)定位并調(diào)整相關(guān)代碼，較傳統(tǒng)模型幾分鐘的修改耗時形成質(zhì)的飛躍。在長文本生成場景，基于該模型的長篇寫作助手可實現(xiàn)每秒200+tokens的穩(wěn)定輸出，百萬字級作品僅需數(shù)十分鐘即可完成。

架構(gòu)設(shè)計層面，研發(fā)團(tuán)隊在Ling 2.0基礎(chǔ)上創(chuàng)新采用MLA+Lightning Linear混合架構(gòu)，配合高度稀疏化的MoE架構(gòu)，使模型在長上下文處理場景中保持優(yōu)勢。通過系統(tǒng)性優(yōu)化BF16、FP8等精度模式的推理鏈路，模型在真實交互場景中的系統(tǒng)吞吐和單用戶TPS顯著提升，首字響應(yīng)時間縮短至行業(yè)領(lǐng)先水平。

在強化學(xué)習(xí)訓(xùn)練階段，團(tuán)隊構(gòu)建大規(guī)模高保真交互環(huán)境，重點提升模型的指令遵循、工具調(diào)用和長程執(zhí)行能力。評測數(shù)據(jù)顯示，該模型在BFCL-V4、TAU2-bench等專業(yè)榜單中表現(xiàn)優(yōu)異，在Claude Code、Kilo Code等主流開發(fā)框架中展現(xiàn)出良好兼容性。盡管在復(fù)雜指令遵循和中英雙語切換方面仍有優(yōu)化空間，但其在通用知識、數(shù)學(xué)推理等基礎(chǔ)能力上已對齊國際頂尖水平。

目前，Ling-2.6-flash已在OpenRouter平臺及官方渠道開放免費API調(diào)用服務(wù)，首周提供全量免費額度，后續(xù)將維持每日50萬tokens的免費配額，超出部分按輸入0.6元/百萬tokens、輸出1.8元/百萬tokens計費。BF16、FP8、INT4等量化版本將于近期開源，為開發(fā)者提供更多部署選擇。

更多>同類內(nèi)容