在近日舉辦的第十屆A2M峰會(北京站)上,作業(yè)幫基礎架構研發(fā)工程師張浩然以《AI時代資源效率困境和破局之道》為主題發(fā)表演講,系統(tǒng)闡述了AI基礎設施領域面臨的"規(guī)模擴張與效率停滯"矛盾,并首次公開了作業(yè)幫自研的三大技術解決方案。這場聚焦AI工程化實踐的技術盛會吸引了數(shù)百名行業(yè)專家參與,共同探討算力效率提升的可行路徑。
張浩然指出,當前AI行業(yè)存在顯著悖論:過去五年訓練算力每六個月增長一倍,但全球智算中心GPU平均利用率不足30%。這種"投入十倍硬件,產(chǎn)出僅兩三倍算力"的現(xiàn)象,在數(shù)據(jù)中心電力消耗年均增長15%的背景下愈發(fā)突出。作業(yè)幫作為教育科技領域的代表企業(yè),其算力網(wǎng)絡覆蓋全國多云多地域,面臨著GPU型號不統(tǒng)一、資源動態(tài)增減、集群通信困難等復雜挑戰(zhàn)。
針對跨地域算力調(diào)度難題,作業(yè)幫創(chuàng)新研發(fā)了統(tǒng)一流量調(diào)度系統(tǒng)。該系統(tǒng)通過多云容災架構實現(xiàn)鏡像快速分發(fā),并開發(fā)智能流量分發(fā)算法:在無專線地區(qū)采用公網(wǎng)加密通信,有專線地區(qū)實現(xiàn)公網(wǎng)專線自動切換。這套系統(tǒng)確保了單地域資源波動時,服務可用性仍能維持在99.99%以上,徹底打破了地域限制對業(yè)務擴容的束縛。
在單集群優(yōu)化方面,作業(yè)幫構建了"調(diào)度-回收-整理"三位一體的治理體系。自主研發(fā)的GPU調(diào)度器采用差異化堆疊策略:整卡模型優(yōu)先集中部署,顯存模型按維度極致壓縮;改造K8s回收邏輯,優(yōu)先選擇縮容后能釋放最多卡片的節(jié)點;通過資源預檢查機制,在業(yè)務低峰期自動遷移碎片化資源。這些措施使集群內(nèi)存資源利用率得到顯著提升。
更突破性的創(chuàng)新在于離在線混合部署方案。作業(yè)幫摒棄傳統(tǒng)固定時間窗口模式,開發(fā)出動態(tài)填充機制:當檢測到空閑整機時,立即啟動離線訓練任務;在線服務預調(diào)度失敗時,自動遷移任務量最少的離線作業(yè)。這種彈性部署策略在保障在線服務SLA的同時,使可用算力增加約20%。
經(jīng)過系統(tǒng)性優(yōu)化,作業(yè)幫GPU平均利用率穩(wěn)定在90%以上,相關技術成果已形成可復制的工程化方案。張浩然強調(diào):"在AI競爭進入深水區(qū)的當下,規(guī)模優(yōu)勢只是基礎門檻,資源利用效率才是決定企業(yè)生死的關鍵指標。"作為國內(nèi)首個在復雜異構環(huán)境中實現(xiàn)90%+利用率的教育科技公司,作業(yè)幫正通過技術開放推動整個行業(yè)降本增效。
據(jù)悉,本屆A2M峰會于中關村國家自主創(chuàng)新示范區(qū)會議中心舉行,聚焦AI工程化落地的實際挑戰(zhàn)。來自互聯(lián)網(wǎng)、制造業(yè)等領域的參會者表示,作業(yè)幫的實踐經(jīng)驗為多云環(huán)境下的算力優(yōu)化提供了重要參考,其技術方案對資源分散型企業(yè)的數(shù)字化轉(zhuǎn)型具有直接借鑒價值。















