C114通信網(wǎng)  |  通信人家園

專題
2024/5/25 11:52

中國移動程偉強:基于GSE構(gòu)建高帶寬、高性能、高可靠、高安全的智算中心網(wǎng)絡(luò)

C114通信網(wǎng)  九九

C114訊 5月25日消息(九九)5月23日,2024中國高質(zhì)量發(fā)展論壇的第四場線上論壇——“AI時代:數(shù)據(jù)中心光互聯(lián)技術(shù)新趨勢”順利舉行。論壇邀請電信運營商、互聯(lián)網(wǎng)服務(wù)商、云計算廠商、模塊芯片商、科研院所、業(yè)內(nèi)專家共聚一堂,圍繞熱點話題深入探討光互聯(lián)和全光交換的應(yīng)用及其面臨的機遇和挑戰(zhàn)。

中國移動研究院基礎(chǔ)網(wǎng)絡(luò)技術(shù)研究所副所長程偉強在主題演講中表示,全球智能算力需求快速增長,亟需構(gòu)建標(biāo)準(zhǔn)統(tǒng)一、技術(shù)領(lǐng)先、軟硬協(xié)同、兼容開放的新型智算中心(NICC)技術(shù)體系。其中,智算中心網(wǎng)絡(luò)用于連接CPU、GPU、內(nèi)存等池化異構(gòu)算力資源,貫穿數(shù)據(jù)計算、存儲全流程,網(wǎng)絡(luò)性能增強對提升智算中心整體算力水平具有關(guān)鍵意義。

程偉強介紹,當(dāng)前業(yè)界智算中心高性能網(wǎng)絡(luò)創(chuàng)新主要分為兩個方向,一是基于現(xiàn)有以太網(wǎng)優(yōu)化,二是革新底層以太網(wǎng)方案。中國公司主導(dǎo)的全調(diào)度以太網(wǎng)(GSE)和美國公司主導(dǎo)的超級以太網(wǎng)(UE)都以革新以太網(wǎng)轉(zhuǎn)發(fā)機制作為核心,并進一步優(yōu)化各層協(xié)議棧,推動網(wǎng)絡(luò)芯片底層邏輯架構(gòu)支持,突破無損以太性能瓶頸。

程偉強進一步介紹,全調(diào)度以太網(wǎng)(GSE)技術(shù)體系能夠最大限度兼容以太網(wǎng)生態(tài),從四層(物理層、鏈路層、網(wǎng)絡(luò)層、傳輸層)+一體(管理和運維體系)等幾個層級進行優(yōu)化和增強,構(gòu)建無阻塞、高帶寬、低時延的新型智算中心網(wǎng)絡(luò),形成標(biāo)準(zhǔn)開放的技術(shù)體系,助力AI產(chǎn)業(yè)發(fā)展。

當(dāng)前,基于GSE的以太網(wǎng)技術(shù)路線逐漸形成產(chǎn)業(yè)共識,高帶寬、高性能、高可靠、高安全的以太網(wǎng)助力智算中心互聯(lián),提升智算中心網(wǎng)絡(luò)性能和整體算力水平。

高帶寬方面,AIGC推動B400G技術(shù)發(fā)展,800GE將成為智算中心組網(wǎng)的重要代際節(jié)點。IEEE 800G標(biāo)準(zhǔn)進展順利,802.3df(8x100G)已發(fā)布,802.3dj(4x200G和800G相干)在快速推動。中國移動專家積極貢獻,推動實現(xiàn)了20km、40km、80km互通和共平臺,并主導(dǎo)完成800GE 20km Objective立項,是中國公司專家在IEEE的首個以太網(wǎng)基礎(chǔ)標(biāo)準(zhǔn)立項。

1.6Tb/s標(biāo)準(zhǔn)制定也已啟動,業(yè)界開始積極布局。802.3dj重點關(guān)注1.6TE短距光標(biāo)準(zhǔn),PCS/FEC方案已確定,1.6TBASE-DR8(500m)和1.6TBASE-DR8-2(2km)光接口基礎(chǔ)參數(shù)已確定;OIF已領(lǐng)跑1.6T相干,同步開展互操作的1600ZR和1600ZR+標(biāo)準(zhǔn)化,降低成本并加強行業(yè)間的協(xié)作,產(chǎn)業(yè)趨勢明朗。

在高性能方面,GSE創(chuàng)新以太網(wǎng)轉(zhuǎn)發(fā)機制,基于三大核心機制轉(zhuǎn)變:從“流”分發(fā)到“報文”分發(fā)、從“盲發(fā)+被動控制”到“感知+主動控制”、從“局部”決策到“全局”調(diào)度,實現(xiàn)高精度負載均衡、網(wǎng)絡(luò)層原生無損及低延遲。

程偉強指出,采用GSE分發(fā)技術(shù)后,有個特別的優(yōu)勢是,用相對小容量的交換芯片,構(gòu)建更大的GPU集群。因為GSE采用了報文容器分發(fā)機制,對leaf上行端口速率需求降低,同等芯片容量下,leaf上行口的端口速率越小,組網(wǎng)規(guī)模越大,負載分擔(dān)鏈路更加散列,包均衡能力更優(yōu),更適配國產(chǎn)芯片大規(guī)模組網(wǎng)需求。以12.8T交換芯片構(gòu)建H100 GPU集群為例,

若采用傳統(tǒng)RoCE組網(wǎng),Spine交換機和Leaf交換機之間需要采用400GE接口互聯(lián),算力集群的最大規(guī)模僅能達到512張GPU卡;若采用GSE組網(wǎng),Spine交換機和Leaf交換機之間用100GE接口互聯(lián)即可,算力集群的最大規(guī)模能夠達到2048張GPU卡。也就是說,GSE用同樣大小的交換芯片可以組出4倍于RoCE網(wǎng)絡(luò)的集群,這個對于國內(nèi)交換芯片相對落后的情況尤其重要。

程偉強進一步介紹了全調(diào)度以太網(wǎng)的技術(shù)優(yōu)勢和產(chǎn)業(yè)進展:超大規(guī)模,極致的鏈路負載,同等芯片容量,GSE網(wǎng)絡(luò)可支持更大集群規(guī)模;超高性能,GSE網(wǎng)絡(luò)較RoCE網(wǎng)絡(luò)性能提升30%,提升大模型訓(xùn)練效率;超高可用,集中控制統(tǒng)一納管,高精度監(jiān)控“135”故障處理,保證集群可用性。目前,GSE推進計劃已經(jīng)有40余家合作伙伴,多個GSE的芯片項目已經(jīng)在開發(fā)過程中。

高可靠方面,AI大模型網(wǎng)絡(luò)集群規(guī)模已達到萬卡級別,模型訓(xùn)練耗時長、成本高。鏈路異常導(dǎo)致訓(xùn)練中斷,造成算力的浪費與成本的增加;萬卡集群端口數(shù)超過幾萬,線路故障不可避免。來自相關(guān)廠商統(tǒng)計數(shù)據(jù),光鏈路異常頻發(fā),故障率約為0.1%~0.2%,平均每周近1起鏈路閃斷類告警。

程偉強強調(diào),團隊正在發(fā)展FlexLane技術(shù),這是基于以太網(wǎng)物理層彈性通道的高可靠保障技術(shù)。當(dāng)物理層檢測到lane故障后進行快速故障隔離,可以有效減少大模型訓(xùn)練因模塊故障而重新load check piont的幾率,在智算中心場景有很好應(yīng)用前景。

在高安全方面,傳統(tǒng)網(wǎng)絡(luò)安全方案無法滿足智算中心網(wǎng)絡(luò)需求,IPSec、MACSec等安全方案應(yīng)用于智算網(wǎng)絡(luò)時,難以兼容存量設(shè)備,無法覆蓋所有數(shù)據(jù)報文,引入較長處理時延,增加大量封裝開銷,影響AI算效。

程偉強介紹,中國移動提出的以太網(wǎng)物理層安全(PHYSec)架構(gòu)及關(guān)鍵技術(shù),具有四大特點:一是協(xié)議透明,全加密。在物理層對比特流加密,保護所有幀頭部,掩蓋幀長度、幀發(fā)送頻率。二是隨流安全,低時延。隨流加密,解密時延全掩蓋(~20ns),對AI訓(xùn)練或推理基本無影響。三是不占帶寬,低開銷。基于物理層原生機制承載協(xié)議,不占用用戶帶寬。四是兼容存量,易部署?苫赑HY芯片或光模塊DSP芯片實現(xiàn),安全可插拔,支持存量網(wǎng)絡(luò)平滑升級。

演講的最后,程偉強表示,歡迎大家加入GSE推進計劃,共同推動中國智算中心網(wǎng)絡(luò)的技術(shù)發(fā)展,構(gòu)建AI網(wǎng)絡(luò)的中國方案。

給作者點贊
0 VS 0
寫得不太好

版權(quán)說明:C114刊載的內(nèi)容,凡注明來源為“C114通信網(wǎng)”或“C114原創(chuàng)”皆屬C114版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和本站來源。編譯類文章僅出于傳遞更多信息之目的,不代表證實其描述或贊同其觀點;翻譯質(zhì)量問題請指正。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141