大模型競(jìng)賽進(jìn)入下半場(chǎng),IT團(tuán)隊(duì)普遍面臨一個(gè)尷尬現(xiàn)實(shí):算力集群越建越大,GPU利用率卻越來越低。戴爾科技集團(tuán)與OpenCSG近日推出的聯(lián)合方案指出,癥結(jié)在于數(shù)據(jù)效率而非算力不足。該方案并非單一硬件,而是完整四組件系統(tǒng):戴爾的Dell Pro Max with GB10提供算力、戴爾的PowerScale作為智能數(shù)據(jù)底座、OpenCSG的CSGHub承擔(dān)調(diào)度中樞、OpenCSG的Xnet協(xié)議充當(dāng)流轉(zhuǎn)引擎,共同解決數(shù)據(jù)提交慢、存儲(chǔ)成本高、GPU空轉(zhuǎn)、PoC到生產(chǎn)斷層四大痛點(diǎn)。
PowerScale:存儲(chǔ)從"倉(cāng)庫"到"調(diào)度中心"的三重躍遷
傳統(tǒng)存儲(chǔ)只被動(dòng)存放數(shù)據(jù),不參與計(jì)算流程。PowerScale通過三項(xiàng)技術(shù)實(shí)現(xiàn)躍遷:
第一,數(shù)據(jù)直連GPU。常規(guī)路徑需經(jīng)CPU中轉(zhuǎn)、內(nèi)存拷貝、協(xié)議轉(zhuǎn)換四道關(guān)卡。PowerScale通過RDMA協(xié)議直送GPU顯存。根據(jù)戴爾與OpenCSG的實(shí)測(cè)數(shù)據(jù), GPU利用率可大幅提升。
第二,單一命名空間。傳統(tǒng)架構(gòu)下開發(fā)機(jī)、集群、生產(chǎn)環(huán)境數(shù)據(jù)割裂,團(tuán)隊(duì)大量時(shí)間浪費(fèi)在找數(shù)據(jù)、對(duì)版本。PowerScale的OneFS文件系統(tǒng)將全鏈路統(tǒng)一視圖管理,所有模型、數(shù)據(jù)集、實(shí)驗(yàn)記錄在同一邏輯空間內(nèi)流轉(zhuǎn),無需手動(dòng)遷移。
第三,智能分層。PB級(jí)數(shù)據(jù)全放全閃存成本失控,全放機(jī)械盤性能崩潰。PowerScale自動(dòng)識(shí)別數(shù)據(jù)熱度,訓(xùn)練中頻繁訪問的熱數(shù)據(jù)保留在全閃層,溫?cái)?shù)據(jù)下沉混閃,歷史數(shù)據(jù)自動(dòng)歸檔??勺屍髽I(yè)的綜合存儲(chǔ)成本得到顯著優(yōu)化,數(shù)據(jù)工程師專注治理而非搬運(yùn)。
Xnet協(xié)議:激活PowerScale的增量流轉(zhuǎn)能力
PowerScale的硬件能力需OpenCSG的Xnet協(xié)議才能完全激活。傳統(tǒng)HTTP/FTP每次全量覆蓋,Xnet采用Git式增量機(jī)制僅傳變動(dòng)文件塊。針對(duì)微調(diào)和迭代場(chǎng)景,傳輸時(shí)間得到顯著節(jié)省,并支持?jǐn)帱c(diǎn)續(xù)傳與多線程并發(fā)。
GB10的銜接價(jià)值:從桌面到集群的統(tǒng)一算力
戴爾的Dell Pro Max with GB10并非孤立工具,而是切入PowerScale生態(tài)的"第一塊積木"。這內(nèi)置Grace Blackwell架構(gòu)的"桌面AI超算",128GB統(tǒng)一內(nèi)存供GPU使用,可在工位跑70B-200B模型。開發(fā)者在本機(jī)完成PoC后,數(shù)據(jù)通過OpenCSG的Xnet自動(dòng)同步至PowerScale,鏡像推送到Staging集群驗(yàn)證,無需適配即可生產(chǎn)部署。
結(jié)語
從算力驅(qū)動(dòng)到數(shù)據(jù)驅(qū)動(dòng),轉(zhuǎn)型關(guān)鍵不在引擎而在油路。PowerScale通過數(shù)據(jù)直連、智能分層、單一命名空間,加上OpenCSG Xnet的增量流轉(zhuǎn),將數(shù)據(jù)從成本中心變?yōu)閯?chuàng)新引擎。當(dāng)大模型能力同質(zhì)化,決定成敗的是數(shù)據(jù)流轉(zhuǎn)速度。戴爾與OpenCSG的方案,正提供了讓數(shù)據(jù)流動(dòng)起來的完整基礎(chǔ)設(shè)施。
