近日,在中國算力大會期間,中國移動攜手全球50余家合作伙伴正式發(fā)布全調(diào)度以太網(wǎng)(GSE)全套技術(shù)標準,以及全球首套GSE商用產(chǎn)品。中國移動通信集團有限公司副總經(jīng)理李慧鏑、河南省人民政府副秘書長魏曉偉、中國移動研究院黨委委員王大越及多位產(chǎn)業(yè)界領(lǐng)導(dǎo)專家共同出席發(fā)布儀式。此次發(fā)布是GSE發(fā)展歷程中的重要里程碑,進一步推動GSE技術(shù)體系在全球主流智算網(wǎng)絡(luò)廣泛應(yīng)用,為世界貢獻中國智慧,助力全球AI產(chǎn)業(yè)發(fā)展。
以太網(wǎng)已成為新一代智算中心網(wǎng)絡(luò)技術(shù)的發(fā)展方向,2023年5月,中國移動聯(lián)合10余家中國企業(yè)率先發(fā)布了全調(diào)度以太網(wǎng)技術(shù)架構(gòu)(GSE)白皮書,并在8月中國算力大會上正式啟動“GSE推進計劃”,成員包括國內(nèi)外主流云服務(wù)商、設(shè)備商、芯片商、高校等50余家產(chǎn)學(xué)研機構(gòu),旨在打造標準開放、合作共贏的技術(shù)體系,與美國公司主導(dǎo)的超級以太網(wǎng)聯(lián)盟(UEC)成為全球范圍內(nèi)兩個具有影響力的技術(shù)體系。
為兼顧智算中心建設(shè)的節(jié)奏與技術(shù)發(fā)展的需求,全調(diào)度以太網(wǎng)技術(shù)劃分為GSE1.0和GSE2.0兩個商用階段。GSE1.0基于現(xiàn)有芯片最大限度地支持GSE新技術(shù),優(yōu)化網(wǎng)絡(luò)性能,目前已在中國移動智算中心(哈爾濱)超萬卡集群實現(xiàn)首次商用,將訓(xùn)練過程中通信時間占比縮20%以上,達到國際先進水平。GSE2.0則全面革新以太網(wǎng)底層轉(zhuǎn)發(fā)機制和上層協(xié)議棧,通過基于PKTC的多路徑噴灑、基于DGSQ的擁塞控制機制以及基于66B原子碼塊的故障檢測與通告等原創(chuàng)技術(shù)創(chuàng)新,從根本上解決傳統(tǒng)無損以太性能和可靠性問題。
此外,為同時滿足以華為昇騰910系列為代表的GPU集成網(wǎng)卡的GPU服務(wù)器和以英偉達H800系列為代表的配備獨立網(wǎng)卡的GPU服務(wù)器組網(wǎng)需求,GSE采用先進的統(tǒng)一設(shè)計理念,構(gòu)建GSE-N2N和GSE-E2E兩大技術(shù)場景,前者網(wǎng)絡(luò)實現(xiàn)全部GSE功能,實現(xiàn)計算和網(wǎng)絡(luò)與天然解耦,后者將部分GSE能力延伸至服務(wù)器網(wǎng)卡,借助端網(wǎng)協(xié)同實現(xiàn)高性能集群互聯(lián)。
本次發(fā)布的成果主要有GSE全套技術(shù)標準包括《GSE1.0 算網(wǎng)協(xié)同技術(shù)標準》、《GSE 2.0網(wǎng)絡(luò)側(cè)優(yōu)化技術(shù)標準》即GSE-N2N標準和《GSE2.0 端網(wǎng)協(xié)同技術(shù)標準》即GSE-E2E標準。其中,GSE1.0技術(shù)標準主要涵蓋端口級+算網(wǎng)協(xié)同的負載均衡、端網(wǎng)協(xié)同的擁塞感知授權(quán)等核心技術(shù),已經(jīng)規(guī)模商用;GSE-N2N技術(shù)標準主要定義了基于PKTC的多路徑噴灑、基于DGSQ的擁塞控制、控制面設(shè)計、網(wǎng)絡(luò)健壯性及網(wǎng)絡(luò)可視化等核心技術(shù),本次發(fā)布的交換機商用產(chǎn)品已全面實現(xiàn);GSE-E2E技術(shù)標準主要涉及端網(wǎng)協(xié)同機制、多路徑噴灑機制、基于DGSQ的擁塞控制、端側(cè)亂序重排及快速丟包重傳等核心內(nèi)容,商用網(wǎng)卡芯片已完成開發(fā)。GSE1.0技術(shù)標準的發(fā)布為近兩年智算中心超萬卡建設(shè)提供強有力的技術(shù)支撐,GSE2.0技術(shù)標準的發(fā)布為未來超十萬卡智算中心網(wǎng)絡(luò)建設(shè)保駕護航。
本次發(fā)布的GSE商用交換機支持千卡級組網(wǎng)規(guī)模,組網(wǎng)性能比傳統(tǒng)RoCEv2交換機提升50%以上。
智算中心網(wǎng)絡(luò)技術(shù)發(fā)展依托從芯片到設(shè)備再到規(guī)模商用全產(chǎn)業(yè)鏈的支持,GSE的全球合作伙伴正在積極構(gòu)建完善的產(chǎn)業(yè)生態(tài),原生支持GSE的DPU商用芯片即將發(fā)布,同時超大容量的GSE以太網(wǎng)交換芯片也已啟動研發(fā)。這將加速GSE技術(shù)的商用部署,以滿足未來超十萬卡智算集群的建設(shè)需求。