作業(yè)幫亮相A2M峰會：以三大方案破局AI算力規(guī)模與效率悖論

發(fā)布時間：2026-06-23 02:56 來源：互聯(lián)網(wǎng) 作者：沈如風

在近日舉辦的第十屆A2M峰會（北京站）上，作業(yè)幫基礎架構研發(fā)工程師張浩然以《AI時代資源效率困境和破局之道》為主題發(fā)表演講，系統(tǒng)闡述了AI基礎設施領域面臨的"規(guī)模擴張與效率停滯"矛盾，并首次公開了作業(yè)幫自研的三大技術解決方案。這場聚焦AI工程化實踐的技術盛會吸引了數(shù)百名行業(yè)專家參與，共同探討算力效率提升的可行路徑。

張浩然指出，當前AI行業(yè)存在顯著悖論：過去五年訓練算力每六個月增長一倍，但全球智算中心GPU平均利用率不足30%。這種"投入十倍硬件，產(chǎn)出僅兩三倍算力"的現(xiàn)象，在數(shù)據(jù)中心電力消耗年均增長15%的背景下愈發(fā)突出。作業(yè)幫作為教育科技領域的代表企業(yè)，其算力網(wǎng)絡覆蓋全國多云多地域，面臨著GPU型號不統(tǒng)一、資源動態(tài)增減、集群通信困難等復雜挑戰(zhàn)。

針對跨地域算力調(diào)度難題，作業(yè)幫創(chuàng)新研發(fā)了統(tǒng)一流量調(diào)度系統(tǒng)。該系統(tǒng)通過多云容災架構實現(xiàn)鏡像快速分發(fā)，并開發(fā)智能流量分發(fā)算法：在無專線地區(qū)采用公網(wǎng)加密通信，有專線地區(qū)實現(xiàn)公網(wǎng)專線自動切換。這套系統(tǒng)確保了單地域資源波動時，服務可用性仍能維持在99.99%以上，徹底打破了地域限制對業(yè)務擴容的束縛。

在單集群優(yōu)化方面，作業(yè)幫構建了"調(diào)度-回收-整理"三位一體的治理體系。自主研發(fā)的GPU調(diào)度器采用差異化堆疊策略：整卡模型優(yōu)先集中部署，顯存模型按維度極致壓縮；改造K8s回收邏輯，優(yōu)先選擇縮容后能釋放最多卡片的節(jié)點；通過資源預檢查機制，在業(yè)務低峰期自動遷移碎片化資源。這些措施使集群內(nèi)存資源利用率得到顯著提升。

更突破性的創(chuàng)新在于離在線混合部署方案。作業(yè)幫摒棄傳統(tǒng)固定時間窗口模式，開發(fā)出動態(tài)填充機制：當檢測到空閑整機時，立即啟動離線訓練任務；在線服務預調(diào)度失敗時，自動遷移任務量最少的離線作業(yè)。這種彈性部署策略在保障在線服務SLA的同時，使可用算力增加約20%。

經(jīng)過系統(tǒng)性優(yōu)化，作業(yè)幫GPU平均利用率穩(wěn)定在90%以上，相關技術成果已形成可復制的工程化方案。張浩然強調(diào)："在AI競爭進入深水區(qū)的當下，規(guī)模優(yōu)勢只是基礎門檻，資源利用效率才是決定企業(yè)生死的關鍵指標。"作為國內(nèi)首個在復雜異構環(huán)境中實現(xiàn)90%+利用率的教育科技公司，作業(yè)幫正通過技術開放推動整個行業(yè)降本增效。

據(jù)悉，本屆A2M峰會于中關村國家自主創(chuàng)新示范區(qū)會議中心舉行，聚焦AI工程化落地的實際挑戰(zhàn)。來自互聯(lián)網(wǎng)、制造業(yè)等領域的參會者表示，作業(yè)幫的實踐經(jīng)驗為多云環(huán)境下的算力優(yōu)化提供了重要參考，其技術方案對資源分散型企業(yè)的數(shù)字化轉(zhuǎn)型具有直接借鑒價值。

更多>同類內(nèi)容