資訊
`
2025/8/12 12:26
元脈高性能AI網(wǎng)絡(luò) 激發(fā)算力潛能
0
0

8月9日,以“智聯(lián)萬物 網(wǎng)聚未來”為主題的2025 AI網(wǎng)絡(luò)技術(shù)應(yīng)用創(chuàng)新大會(huì)在京召開。浪潮信息旗下元脈網(wǎng)絡(luò)應(yīng)邀參會(huì),元脈網(wǎng)絡(luò)副總經(jīng)理陳翔發(fā)表主題為“元脈高性能AI網(wǎng)絡(luò),助力算力潛能釋放”的演講,詳細(xì)介紹了元脈網(wǎng)絡(luò)在AI網(wǎng)絡(luò)上的創(chuàng)新與實(shí)踐。

元脈網(wǎng)絡(luò)副總經(jīng)理 陳翔

AI業(yè)務(wù)規(guī);l(fā)展 三大挑戰(zhàn)解決

隨著人工智能技術(shù)的迅猛發(fā)展,智算中心的集群規(guī)模持續(xù)擴(kuò)大,AI 網(wǎng)絡(luò)建設(shè)亟需攻克在“部署效率、系統(tǒng)穩(wěn)定性、資源負(fù)載”三方面的挑戰(zhàn)。

●  部署緩慢,影響業(yè)務(wù)上線效率 當(dāng)前 AI 應(yīng)用正呈現(xiàn)與業(yè)務(wù)深度滲透融合的態(tài)勢,“如何提高部署效率、實(shí)現(xiàn)業(yè)務(wù)快速上線”已成為 AI 網(wǎng)絡(luò)建設(shè)面臨的首要問題。然而,集群規(guī)模的急速擴(kuò)張,大幅提升了網(wǎng)絡(luò)部署與調(diào)優(yōu)的難度。以傳統(tǒng) RoCE 技術(shù)為例,其擁塞控制主要采用DCQCN技術(shù),而該技術(shù)的參數(shù)需進(jìn)行針對性調(diào)優(yōu),這直接導(dǎo)致?lián)砣刂撇渴鹆鞒虖?fù)雜,進(jìn)而影響業(yè)務(wù)上線效率。

●  通信時(shí)長、系統(tǒng)故障,制約算力釋放 集群建設(shè)涉及 GPU、網(wǎng)絡(luò)、光模塊等大量組件及復(fù)雜協(xié)議棧,當(dāng)前訓(xùn)練流量以大象流為主,這類流量具有同步突發(fā)特性,易因通信等待造成大量算力損耗;與此同時(shí),卡間通信還陷入“訓(xùn)練規(guī)模越大,平均無故障時(shí)間越高”的悖論。據(jù)業(yè)界公開數(shù)據(jù)顯示,在 AI 系統(tǒng)故障中,網(wǎng)絡(luò)因素占比超 10%,已成為制約 AI 技術(shù)發(fā)展的重要瓶頸。

●  大模型訓(xùn)推混跑,網(wǎng)絡(luò)資源負(fù)載不均衡 隨著大模型框架的陸續(xù)開源,在業(yè)內(nèi)激發(fā)出新一輪部署熱潮。但大模型的快速部署,也讓模型內(nèi)部出現(xiàn)“訓(xùn)練+推理”混跑的連鎖反應(yīng),在這樣多任務(wù)混跑條件下部署的網(wǎng)絡(luò),會(huì)出現(xiàn)性能下降、流量相互干擾、及網(wǎng)絡(luò)資源負(fù)載不均衡等問題。

元脈網(wǎng)絡(luò)打造高性能、高可靠AI Fabric方案

為解決上述問題,元脈網(wǎng)絡(luò)憑借前瞻性的技術(shù)洞察和創(chuàng)新能力,推出高性能、高可靠的AI Fabric方案。該方案由元脈RoCE技術(shù)、AI Fabric交換機(jī)、及智能運(yùn)管平臺(tái)三大核心組件構(gòu)成,可以實(shí)現(xiàn)AI網(wǎng)絡(luò)的端網(wǎng)一鍵部署、流量精準(zhǔn)可視、故障智能預(yù)測,為大模型訓(xùn)推提供堅(jiān)實(shí)的網(wǎng)絡(luò)基礎(chǔ),保障模型訓(xùn)推的高效、穩(wěn)定和可靠運(yùn)行。

在部署效率和穩(wěn)定性上,元脈網(wǎng)絡(luò)智能運(yùn)管平臺(tái)ICE支持端網(wǎng)一鍵部署,可以統(tǒng)一納管交換機(jī)、網(wǎng)卡、光模塊、GPU、服務(wù)器等設(shè)備,實(shí)現(xiàn)拓?fù)渑渲靡绘I校驗(yàn)、全網(wǎng)自動(dòng)上線。同時(shí),支持訓(xùn)前一鍵NCCL壓力測試,將部署時(shí)間從數(shù)周縮短到數(shù)天,極大簡化用戶的運(yùn)維部署成本。

此外,元脈網(wǎng)絡(luò)AI Fabric方案搭建了更先進(jìn)的高精度遙測核心技術(shù),可實(shí)現(xiàn)AI流量的精準(zhǔn)可視。并具備靈活可編程特性,不僅支持?jǐn)?shù)據(jù)的自定義監(jiān)測與網(wǎng)絡(luò)性能的AI調(diào)優(yōu),還能有效提升算力資源利用率,確保業(yè)務(wù)流量零干擾運(yùn)行。

級(jí)可靠”加固 AI網(wǎng)絡(luò)安全感拉滿

為提高智算中心集群網(wǎng)絡(luò)的可靠性,元脈網(wǎng)絡(luò)從“設(shè)備-鏈路-系統(tǒng)”三個(gè)維度進(jìn)行可靠性加固,降低智算中心建設(shè)過程中的單點(diǎn)故障率,提升系統(tǒng)無故障訓(xùn)練時(shí)間,激發(fā)算力潛能。

● 設(shè)備級(jí)可靠:元脈網(wǎng)絡(luò)AI Fabric方案內(nèi)置獨(dú)創(chuàng)的 IGE 智能防護(hù)引擎,硬件層面采用RAS可靠性架構(gòu)設(shè)計(jì),對所有關(guān)鍵部件實(shí)施冗余備份,真正實(shí)現(xiàn)“單一設(shè)備失效,整個(gè)系統(tǒng)無感運(yùn)行”;軟件層面采用模塊化架構(gòu),將業(yè)務(wù)模塊進(jìn)行容器化隔離部署,確保各模塊獨(dú)立運(yùn)行、互不干擾,同時(shí)為關(guān)鍵模塊配備熱重啟與熱升級(jí)功能,充分滿足AI網(wǎng)絡(luò)環(huán)境的高穩(wěn)定性要求;此外,通過獨(dú)立的管理監(jiān)控平臺(tái)OpenBMC,提供更高級(jí)別的安全防護(hù)與可靠性保障,全方位適配AI時(shí)代數(shù)據(jù)中心的管理需求。

● 鏈路級(jí)可靠:由于集群規(guī)模龐大,光模塊數(shù)量眾多,一旦光模塊發(fā)生故障,將極大影響大模型的訓(xùn)練進(jìn)程。對此,元脈網(wǎng)絡(luò)AI Fabric方案可實(shí)現(xiàn)對光模塊各項(xiàng)指標(biāo)的精準(zhǔn)監(jiān)控,能夠?qū)崟r(shí)掌握其健康狀態(tài)并提前預(yù)警,達(dá)到故障“主動(dòng)預(yù)警、提前干預(yù)”的目的,有效減少訓(xùn)練中斷的情況,降低故障帶來的影響。

● 系統(tǒng)級(jí)可靠:在系統(tǒng)級(jí)可靠性設(shè)計(jì)方面,元脈網(wǎng)絡(luò)AI Fabric方案具備多重技術(shù)優(yōu)勢。一是采用智能負(fù)載均衡技術(shù),當(dāng)鏈路發(fā)生故障時(shí),智能負(fù)載均衡可依據(jù)全局鏈路狀態(tài),重新均衡AI流量,性能較傳統(tǒng)RoCE領(lǐng)先2.3 倍;針對單平面架構(gòu)易出現(xiàn)單點(diǎn)故障的風(fēng)險(xiǎn),方案采用多平面架構(gòu)技術(shù),為算力持續(xù)可用提供堅(jiān)實(shí)保障,不僅可以實(shí)現(xiàn) AI 通信零中斷,更使有效訓(xùn)練時(shí)長占比高達(dá) 99%。

AI賦能未來 互聯(lián)構(gòu)筑基石

元脈® 浪潮信息旗下網(wǎng)絡(luò)業(yè)務(wù)品牌,作為AI時(shí)代網(wǎng)絡(luò)創(chuàng)新引領(lǐng)者,可以為用戶提供面向AI時(shí)代的智算中心、數(shù)據(jù)中心、邊緣網(wǎng)絡(luò)等全棧網(wǎng)絡(luò)方案。并堅(jiān)持智能、開放、可靠的發(fā)展理念,不斷深化自身在技術(shù)創(chuàng)新、場景創(chuàng)新、合作創(chuàng)新方面的能力,為AI時(shí)代算力、數(shù)據(jù)價(jià)值的釋放,打造堅(jiān)實(shí)互聯(lián)基石。

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。

給作者點(diǎn)贊
0 VS 0
寫得不太好

C114簡介     聯(lián)系我們     網(wǎng)站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號(hào)-4

C114通信網(wǎng)版權(quán)所有 舉報(bào)電話:021-54451141 用戶注銷