螞蟻集團(tuán)旗下百靈團(tuán)隊近日宣布,其研發(fā)的Instruct模型Ling-2.6-flash正式對外發(fā)布。這款總參數(shù)量達(dá)104B、激活參數(shù)7.4B的模型此前以匿名形式在OpenRouter平臺測試,連續(xù)多日占據(jù)熱榜首位,日均tokens調(diào)用量突破百億級別,引發(fā)開發(fā)者社區(qū)廣泛關(guān)注。
技術(shù)團(tuán)隊通過引入混合線性架構(gòu),使模型在4卡H20硬件環(huán)境下實現(xiàn)每秒340tokens的推理速度,Prefill吞吐量達(dá)到同類產(chǎn)品Nemotron-3-Super的2.2倍。在token效率優(yōu)化方面,該模型在Artificial Analysis完整評測中僅消耗15M tokens,較主流模型降低90%以上,形成顯著的智效比優(yōu)勢。針對Agent場景的定向增強訓(xùn)練,使其在工具調(diào)用、多步規(guī)劃等核心能力上達(dá)到同尺寸模型領(lǐng)先水平。
實測數(shù)據(jù)顯示,在前端開發(fā)任務(wù)中,模型能自動規(guī)劃網(wǎng)站核心組件并添加明暗模式切換等擴(kuò)展功能,1分鐘內(nèi)完成原型開發(fā)。當(dāng)用戶要求修改主色調(diào)時,模型可在10秒內(nèi)精準(zhǔn)定位并調(diào)整相關(guān)代碼,較傳統(tǒng)模型幾分鐘的修改耗時形成質(zhì)的飛躍。在長文本生成場景,基于該模型的長篇寫作助手可實現(xiàn)每秒200+tokens的穩(wěn)定輸出,百萬字級作品僅需數(shù)十分鐘即可完成。
架構(gòu)設(shè)計層面,研發(fā)團(tuán)隊在Ling 2.0基礎(chǔ)上創(chuàng)新采用MLA+Lightning Linear混合架構(gòu),配合高度稀疏化的MoE架構(gòu),使模型在長上下文處理場景中保持優(yōu)勢。通過系統(tǒng)性優(yōu)化BF16、FP8等精度模式的推理鏈路,模型在真實交互場景中的系統(tǒng)吞吐和單用戶TPS顯著提升,首字響應(yīng)時間縮短至行業(yè)領(lǐng)先水平。
在強化學(xué)習(xí)訓(xùn)練階段,團(tuán)隊構(gòu)建大規(guī)模高保真交互環(huán)境,重點提升模型的指令遵循、工具調(diào)用和長程執(zhí)行能力。評測數(shù)據(jù)顯示,該模型在BFCL-V4、TAU2-bench等專業(yè)榜單中表現(xiàn)優(yōu)異,在Claude Code、Kilo Code等主流開發(fā)框架中展現(xiàn)出良好兼容性。盡管在復(fù)雜指令遵循和中英雙語切換方面仍有優(yōu)化空間,但其在通用知識、數(shù)學(xué)推理等基礎(chǔ)能力上已對齊國際頂尖水平。
目前,Ling-2.6-flash已在OpenRouter平臺及官方渠道開放免費API調(diào)用服務(wù),首周提供全量免費額度,后續(xù)將維持每日50萬tokens的免費配額,超出部分按輸入0.6元/百萬tokens、輸出1.8元/百萬tokens計費。BF16、FP8、INT4等量化版本將于近期開源,為開發(fā)者提供更多部署選擇。















