C114訊 5月25日消息(九九)5月23日,2024中國高質(zhì)量發(fā)展論壇的第四場線上論壇——“AI時代:數(shù)據(jù)中心光互聯(lián)技術(shù)新趨勢”順利舉行。論壇邀請電信運營商、互聯(lián)網(wǎng)服務商、云計算廠商、模塊芯片商、科研院所、業(yè)內(nèi)專家共聚一堂,圍繞熱點話題深入探討光互聯(lián)和全光交換的應用及其面臨的機遇和挑戰(zhàn)。
中國移動研究院基礎(chǔ)網(wǎng)絡技術(shù)研究所副所長程偉強在主題演講中表示,全球智能算力需求快速增長,亟需構(gòu)建標準統(tǒng)一、技術(shù)領(lǐng)先、軟硬協(xié)同、兼容開放的新型智算中心(NICC)技術(shù)體系。其中,智算中心網(wǎng)絡用于連接CPU、GPU、內(nèi)存等池化異構(gòu)算力資源,貫穿數(shù)據(jù)計算、存儲全流程,網(wǎng)絡性能增強對提升智算中心整體算力水平具有關(guān)鍵意義。
程偉強介紹,當前業(yè)界智算中心高性能網(wǎng)絡創(chuàng)新主要分為兩個方向,一是基于現(xiàn)有以太網(wǎng)優(yōu)化,二是革新底層以太網(wǎng)方案。中國公司主導的全調(diào)度以太網(wǎng)(GSE)和美國公司主導的超級以太網(wǎng)(UE)都以革新以太網(wǎng)轉(zhuǎn)發(fā)機制作為核心,并進一步優(yōu)化各層協(xié)議棧,推動網(wǎng)絡芯片底層邏輯架構(gòu)支持,突破無損以太性能瓶頸。
程偉強進一步介紹,全調(diào)度以太網(wǎng)(GSE)技術(shù)體系能夠最大限度兼容以太網(wǎng)生態(tài),從四層(物理層、鏈路層、網(wǎng)絡層、傳輸層)+一體(管理和運維體系)等幾個層級進行優(yōu)化和增強,構(gòu)建無阻塞、高帶寬、低時延的新型智算中心網(wǎng)絡,形成標準開放的技術(shù)體系,助力AI產(chǎn)業(yè)發(fā)展。
當前,基于GSE的以太網(wǎng)技術(shù)路線逐漸形成產(chǎn)業(yè)共識,高帶寬、高性能、高可靠、高安全的以太網(wǎng)助力智算中心互聯(lián),提升智算中心網(wǎng)絡性能和整體算力水平。
在高帶寬方面,AIGC推動B400G技術(shù)發(fā)展,800GE將成為智算中心組網(wǎng)的重要代際節(jié)點。IEEE 800G標準進展順利,802.3df(8x100G)已發(fā)布,802.3dj(4x200G和800G相干)在快速推動。中國移動專家積極貢獻,推動實現(xiàn)了20km、40km、80km互通和共平臺,并主導完成800GE 20km Objective立項,是中國公司專家在IEEE的首個以太網(wǎng)基礎(chǔ)標準立項。
1.6Tb/s標準制定也已啟動,業(yè)界開始積極布局。802.3dj重點關(guān)注1.6TE短距光標準,PCS/FEC方案已確定,1.6TBASE-DR8(500m)和1.6TBASE-DR8-2(2km)光接口基礎(chǔ)參數(shù)已確定;OIF已領(lǐng)跑1.6T相干,同步開展互操作的1600ZR和1600ZR+標準化,降低成本并加強行業(yè)間的協(xié)作,產(chǎn)業(yè)趨勢明朗。
在高性能方面,GSE創(chuàng)新以太網(wǎng)轉(zhuǎn)發(fā)機制,基于三大核心機制轉(zhuǎn)變:從“流”分發(fā)到“報文”分發(fā)、從“盲發(fā)+被動控制”到“感知+主動控制”、從“局部”決策到“全局”調(diào)度,實現(xiàn)高精度負載均衡、網(wǎng)絡層原生無損及低延遲。
程偉強指出,采用GSE分發(fā)技術(shù)后,有個特別的優(yōu)勢是,用相對小容量的交換芯片,構(gòu)建更大的GPU集群。因為GSE采用了報文容器分發(fā)機制,對leaf上行端口速率需求降低,同等芯片容量下,leaf上行口的端口速率越小,組網(wǎng)規(guī)模越大,負載分擔鏈路更加散列,包均衡能力更優(yōu),更適配國產(chǎn)芯片大規(guī)模組網(wǎng)需求。以12.8T交換芯片構(gòu)建H100 GPU集群為例,
若采用傳統(tǒng)RoCE組網(wǎng),Spine交換機和Leaf交換機之間需要采用400GE接口互聯(lián),算力集群的最大規(guī)模僅能達到512張GPU卡;若采用GSE組網(wǎng),Spine交換機和Leaf交換機之間用100GE接口互聯(lián)即可,算力集群的最大規(guī)模能夠達到2048張GPU卡。也就是說,GSE用同樣大小的交換芯片可以組出4倍于RoCE網(wǎng)絡的集群,這個對于國內(nèi)交換芯片相對落后的情況尤其重要。
程偉強進一步介紹了全調(diào)度以太網(wǎng)的技術(shù)優(yōu)勢和產(chǎn)業(yè)進展:超大規(guī)模,極致的鏈路負載,同等芯片容量,GSE網(wǎng)絡可支持更大集群規(guī)模;超高性能,GSE網(wǎng)絡較RoCE網(wǎng)絡性能提升30%,提升大模型訓練效率;超高可用,集中控制統(tǒng)一納管,高精度監(jiān)控“135”故障處理,保證集群可用性。目前,GSE推進計劃已經(jīng)有40余家合作伙伴,多個GSE的芯片項目已經(jīng)在開發(fā)過程中。
在高可靠方面,AI大模型網(wǎng)絡集群規(guī)模已達到萬卡級別,模型訓練耗時長、成本高。鏈路異常導致訓練中斷,造成算力的浪費與成本的增加;萬卡集群端口數(shù)超過幾萬,線路故障不可避免。來自相關(guān)廠商統(tǒng)計數(shù)據(jù),光鏈路異常頻發(fā),故障率約為0.1%~0.2%,平均每周近1起鏈路閃斷類告警。
程偉強強調(diào),團隊正在發(fā)展FlexLane技術(shù),這是基于以太網(wǎng)物理層彈性通道的高可靠保障技術(shù)。當物理層檢測到lane故障后進行快速故障隔離,可以有效減少大模型訓練因模塊故障而重新load check piont的幾率,在智算中心場景有很好應用前景。
在高安全方面,傳統(tǒng)網(wǎng)絡安全方案無法滿足智算中心網(wǎng)絡需求,IPSec、MACSec等安全方案應用于智算網(wǎng)絡時,難以兼容存量設(shè)備,無法覆蓋所有數(shù)據(jù)報文,引入較長處理時延,增加大量封裝開銷,影響AI算效。
程偉強介紹,中國移動提出的以太網(wǎng)物理層安全(PHYSec)架構(gòu)及關(guān)鍵技術(shù),具有四大特點:一是協(xié)議透明,全加密。在物理層對比特流加密,保護所有幀頭部,掩蓋幀長度、幀發(fā)送頻率。二是隨流安全,低時延。隨流加密,解密時延全掩蓋(~20ns),對AI訓練或推理基本無影響。三是不占帶寬,低開銷。基于物理層原生機制承載協(xié)議,不占用用戶帶寬。四是兼容存量,易部署。可基于PHY芯片或光模塊DSP芯片實現(xiàn),安全可插拔,支持存量網(wǎng)絡平滑升級。
演講的最后,程偉強表示,歡迎大家加入GSE推進計劃,共同推動中國智算中心網(wǎng)絡的技術(shù)發(fā)展,構(gòu)建AI網(wǎng)絡的中國方案。