最新日本免费一区二区2019最 ,亚洲五月天激情社区,国产乱伦视频

C114
通信人家園
English
公眾號矩陣

投稿
舉報

量子大觀

通信人家園

C114通信網

光通信觀察

DVBCN中廣5G

2024/5/25 11:52

中國移動程偉強：基于GSE構建高帶寬、高性能、高可靠、高安全的智算中心網絡

C114通信網九九

C114訊 5月25日消息（九九）5月23日，2024中國高質量發(fā)展論壇的第四場線上論壇——“AI時代：數(shù)據中心光互聯(lián)技術新趨勢”順利舉行。論壇邀請電信運營商、互聯(lián)網服務商、云計算廠商、模塊芯片商、科研院所、業(yè)內專家共聚一堂，圍繞熱點話題深入探討光互聯(lián)和全光交換的應用及其面臨的機遇和挑戰(zhàn)。

中國移動研究院基礎網絡技術研究所副所長程偉強在主題演講中表示，全球智能算力需求快速增長，亟需構建標準統(tǒng)一、技術領先、軟硬協(xié)同、兼容開放的新型智算中心（NICC）技術體系。其中，智算中心網絡用于連接CPU、GPU、內存等池化異構算力資源，貫穿數(shù)據計算、存儲全流程，網絡性能增強對提升智算中心整體算力水平具有關鍵意義。

程偉強介紹，當前業(yè)界智算中心高性能網絡創(chuàng)新主要分為兩個方向，一是基于現(xiàn)有以太網優(yōu)化，二是革新底層以太網方案。中國公司主導的全調度以太網（GSE）和美國公司主導的超級以太網（UE）都以革新以太網轉發(fā)機制作為核心，并進一步優(yōu)化各層協(xié)議棧，推動網絡芯片底層邏輯架構支持，突破無損以太性能瓶頸。

程偉強進一步介紹，全調度以太網（GSE）技術體系能夠最大限度兼容以太網生態(tài)，從四層（物理層、鏈路層、網絡層、傳輸層）+一體（管理和運維體系）等幾個層級進行優(yōu)化和增強，構建無阻塞、高帶寬、低時延的新型智算中心網絡，形成標準開放的技術體系，助力AI產業(yè)發(fā)展。

當前，基于GSE的以太網技術路線逐漸形成產業(yè)共識，高帶寬、高性能、高可靠、高安全的以太網助力智算中心互聯(lián)，提升智算中心網絡性能和整體算力水平。

在高帶寬方面，AIGC推動B400G技術發(fā)展，800GE將成為智算中心組網的重要代際節(jié)點。IEEE 800G標準進展順利，802.3df（8x100G）已發(fā)布，802.3dj（4x200G和800G相干）在快速推動。中國移動專家積極貢獻，推動實現(xiàn)了20km、40km、80km互通和共平臺，并主導完成800GE 20km Objective立項，是中國公司專家在IEEE的首個以太網基礎標準立項。

1.6Tb/s標準制定也已啟動，業(yè)界開始積極布局。802.3dj重點關注1.6TE短距光標準，PCS/FEC方案已確定，1.6TBASE-DR8（500m）和1.6TBASE-DR8-2（2km）光接口基礎參數(shù)已確定；OIF已領跑1.6T相干，同步開展互操作的1600ZR和1600ZR+標準化，降低成本并加強行業(yè)間的協(xié)作，產業(yè)趨勢明朗。

在高性能方面，GSE創(chuàng)新以太網轉發(fā)機制，基于三大核心機制轉變：從“流”分發(fā)到“報文”分發(fā)、從“盲發(fā)+被動控制”到“感知+主動控制”、從“局部”決策到“全局”調度，實現(xiàn)高精度負載均衡、網絡層原生無損及低延遲。

程偉強指出，采用GSE分發(fā)技術后，有個特別的優(yōu)勢是，用相對小容量的交換芯片，構建更大的GPU集群。因為GSE采用了報文容器分發(fā)機制，對leaf上行端口速率需求降低，同等芯片容量下，leaf上行口的端口速率越小，組網規(guī)模越大，負載分擔鏈路更加散列，包均衡能力更優(yōu)，更適配國產芯片大規(guī)模組網需求。以12.8T交換芯片構建H100 GPU集群為例，

若采用傳統(tǒng)RoCE組網，Spine交換機和Leaf交換機之間需要采用400GE接口互聯(lián)，算力集群的最大規(guī)模僅能達到512張GPU卡；若采用GSE組網，Spine交換機和Leaf交換機之間用100GE接口互聯(lián)即可，算力集群的最大規(guī)模能夠達到2048張GPU卡。也就是說，GSE用同樣大小的交換芯片可以組出4倍于RoCE網絡的集群，這個對于國內交換芯片相對落后的情況尤其重要。

程偉強進一步介紹了全調度以太網的技術優(yōu)勢和產業(yè)進展：超大規(guī)模，極致的鏈路負載，同等芯片容量，GSE網絡可支持更大集群規(guī)模；超高性能，GSE網絡較RoCE網絡性能提升30%，提升大模型訓練效率；超高可用，集中控制統(tǒng)一納管，高精度監(jiān)控“135”故障處理，保證集群可用性。目前，GSE推進計劃已經有40余家合作伙伴，多個GSE的芯片項目已經在開發(fā)過程中。

在高可靠方面，AI大模型網絡集群規(guī)模已達到萬卡級別，模型訓練耗時長、成本高。鏈路異常導致訓練中斷，造成算力的浪費與成本的增加；萬卡集群端口數(shù)超過幾萬，線路故障不可避免。來自相關廠商統(tǒng)計數(shù)據，光鏈路異常頻發(fā)，故障率約為0.1%~0.2%，平均每周近1起鏈路閃斷類告警。

程偉強強調，團隊正在發(fā)展FlexLane技術，這是基于以太網物理層彈性通道的高可靠保障技術。當物理層檢測到lane故障后進行快速故障隔離，可以有效減少大模型訓練因模塊故障而重新load check piont的幾率，在智算中心場景有很好應用前景。

在高安全方面，傳統(tǒng)網絡安全方案無法滿足智算中心網絡需求，IPSec、MACSec等安全方案應用于智算網絡時，難以兼容存量設備，無法覆蓋所有數(shù)據報文，引入較長處理時延，增加大量封裝開銷，影響AI算效。

程偉強介紹，中國移動提出的以太網物理層安全（PHYSec）架構及關鍵技術，具有四大特點：一是協(xié)議透明，全加密。在物理層對比特流加密，保護所有幀頭部，掩蓋幀長度、幀發(fā)送頻率。二是隨流安全，低時延。隨流加密，解密時延全掩蓋（~20ns），對AI訓練或推理基本無影響。三是不占帶寬，低開銷�；谖锢韺釉鷻C制承載協(xié)議，不占用用戶帶寬。四是兼容存量，易部署�？苫赑HY芯片或光模塊DSP芯片實現(xiàn)，安全可插拔，支持存量網絡平滑升級。

演講的最后，程偉強表示，歡迎大家加入GSE推進計劃，共同推動中國智算中心網絡的技術發(fā)展，構建AI網絡的中國方案。

給作者點贊

0 VS 0

寫得不太好

相關鏈接

網絡 AI 運營商互聯(lián)網中國移動

中國移動與水利部黃河水利委員會簽署戰(zhàn)略合作協(xié)議
C114通信網 6-5
中國移動與河南省人民政府簽署合作協(xié)議
C114通信網 6-5
中國移動榮獲中國專利金獎
C114通信網 6-5
中國移動、華為、中興榮獲第二十五屆中國專利金獎
C114通信網顏翊6-5

特別策劃