2024年9月27日,在中國算力大會(huì)期間,中國移動(dòng)聯(lián)合全球50余家合作伙伴正式發(fā)布全調(diào)度以太網(wǎng)(GSE)全套技術(shù)標(biāo)準(zhǔn),同時(shí)全球首發(fā)GSE商用產(chǎn)品。中國移動(dòng)通信集團(tuán)有限公司副總經(jīng)理李慧鏑及多位產(chǎn)業(yè)界領(lǐng)導(dǎo)專家共同出席發(fā)布儀式。此次發(fā)布是GSE發(fā)展歷程中的一個(gè)重要里程碑,將進(jìn)一步推動(dòng)GSE技術(shù)體系在全球主流智算網(wǎng)絡(luò)廣泛應(yīng)用,為世界貢獻(xiàn)中國智慧,助力全球AI產(chǎn)業(yè)發(fā)展。
統(tǒng)一標(biāo)準(zhǔn)體系,覆蓋所有場(chǎng)景
為兼顧智算中心建設(shè)的節(jié)奏與技術(shù)發(fā)展的需求,全調(diào)度以太網(wǎng)技術(shù)被劃分為GSE1.0和GSE2.0兩個(gè)商用階段。本次發(fā)布會(huì)全面發(fā)布了GSE1.0和GSE2.0三本標(biāo)準(zhǔn),分別是《GSE1.0 算網(wǎng)協(xié)同技術(shù)標(biāo)準(zhǔn)》、《GSE 2.0網(wǎng)絡(luò)側(cè)優(yōu)化技術(shù)標(biāo)準(zhǔn)》即GSE-N2N標(biāo)準(zhǔn)和《GSE2.0 端網(wǎng)協(xié)同技術(shù)標(biāo)準(zhǔn)》即GSE-E2E標(biāo)準(zhǔn)。
GSE1.0基于現(xiàn)有芯片實(shí)現(xiàn),滿足近期部署需求;GSE2.0引入全新以太網(wǎng)轉(zhuǎn)發(fā)和流控機(jī)制,滿足中遠(yuǎn)期超十萬卡需求和不同GPU形態(tài)部署需求,亮點(diǎn)很多,我們下面盤點(diǎn)一下。
當(dāng)前智算中心服務(wù)器主要有兩類,一類是GPU集成網(wǎng)卡,典型產(chǎn)品如華為昇騰910系列;另一類是配備獨(dú)立網(wǎng)卡的GPU服務(wù)器,典型產(chǎn)品如英偉達(dá)H800等系列。通常需要不同的網(wǎng)絡(luò)解決方案。GSE采用統(tǒng)一設(shè)計(jì)理念,形成了GSE-N2N和GSE-E2E兩大模式,以滿足各種智算中心的網(wǎng)絡(luò)需求。
GSE-N2N技術(shù)方案適用于GPU集成網(wǎng)卡場(chǎng)景,網(wǎng)絡(luò)設(shè)備支持GSE的全部功能,使得GPU服務(wù)器與GSE網(wǎng)絡(luò)之間無需直接聯(lián)動(dòng),實(shí)現(xiàn)天然解耦,同時(shí)確保無損、高性能的集群互聯(lián);GSE-E2E技術(shù)方案則適用于配備獨(dú)立網(wǎng)卡的GPU服務(wù)器,通過將部分GSE能力延伸至GPU服務(wù)器的網(wǎng)卡,借助端網(wǎng)協(xié)同實(shí)現(xiàn)高性能的集群互聯(lián)。
GSE2.0兩本標(biāo)準(zhǔn)中采用了四大原創(chuàng)技術(shù),以提升智算中心網(wǎng)絡(luò)的性能、可靠性和安全性。一是基于PKTC的多路徑噴灑:該技術(shù)實(shí)現(xiàn)了網(wǎng)絡(luò)中99%以上的負(fù)載均衡,大幅提升了智算中心網(wǎng)絡(luò)的帶寬利用率。二是基于DGSQ的擁塞控制機(jī)制:通過動(dòng)態(tài)出口授權(quán)機(jī)制,確保流量負(fù)載不超過網(wǎng)絡(luò)的承載能力,有效避免了網(wǎng)絡(luò)擁塞。三是基于66B原子碼塊的故障檢測(cè)與通告:該技術(shù)實(shí)現(xiàn)了微秒級(jí)的快速故障感知和亞毫秒級(jí)的網(wǎng)絡(luò)恢復(fù),顯著提高了網(wǎng)絡(luò)的可靠性。四是以太網(wǎng)物理層安全機(jī)制:提供了bit流級(jí)的安全保障,增強(qiáng)了數(shù)據(jù)傳輸?shù)陌踩。此外,GSE還提出了簡(jiǎn)潔高效的控制面機(jī)制,實(shí)現(xiàn)了整個(gè)網(wǎng)絡(luò)的“零”配置運(yùn)行和即插即用功能。
商用設(shè)備與標(biāo)準(zhǔn)同時(shí)發(fā)布,能商用才是真標(biāo)準(zhǔn)
據(jù)悉,GSE1.0產(chǎn)品基于現(xiàn)有芯片最大限度地支持GSE新技術(shù),優(yōu)化網(wǎng)絡(luò)性能。目前,已在中國移動(dòng)智算中心(哈爾濱)1.8萬卡集群實(shí)現(xiàn)大規(guī)模商用,成功將訓(xùn)練過程中的通信時(shí)間占比縮短20%以上,達(dá)到了國際先進(jìn)水平。
同時(shí),本次還發(fā)布了支持千卡GPU集群的GSE2.0交換機(jī)產(chǎn)品,由中國移動(dòng)與合作伙伴合作研發(fā),具備全量GSE-N2N能力,支持報(bào)文容器(PKTC)轉(zhuǎn)發(fā)、全局動(dòng)態(tài)調(diào)度隊(duì)列(DGSQ)以及快速檢測(cè)和保護(hù)倒換能力,性能相比傳統(tǒng)RoCEv2有50%以上提升。
立足中國原創(chuàng),面向全球開放
以太網(wǎng)已成為新一代智算中心網(wǎng)絡(luò)技術(shù)的發(fā)展方向。目前,全球范圍內(nèi)有兩個(gè)具有影響力的技術(shù)方案:一個(gè)是由美國公司主導(dǎo)的超級(jí)以太網(wǎng)聯(lián)盟(UEC),另一個(gè)是由中國公司主導(dǎo)的全調(diào)度以太網(wǎng)推進(jìn)計(jì)劃(GSE)。這兩個(gè)組織都吸納了主流的國內(nèi)外運(yùn)營商、互聯(lián)網(wǎng)服務(wù)提供商、芯片制造商和設(shè)備供應(yīng)商,旨在打造標(biāo)準(zhǔn)開放、合作共贏的技術(shù)體系。
需要特別強(qiáng)調(diào)的是,UEC和GSE的成立順序。許多人誤認(rèn)為我國在智算領(lǐng)域落后于美國,因此認(rèn)為GSE可能落后于UEC。然而,事實(shí)恰恰相反。2023年5月,中國移動(dòng)聯(lián)合10余家中國企業(yè)率先發(fā)布了全調(diào)度以太網(wǎng)技術(shù)架構(gòu)(GSE)白皮書,標(biāo)志著GSE技術(shù)的確立。而超級(jí)以太網(wǎng)聯(lián)盟(UEC)則是在幾個(gè)月后才成立。
在2023中國算力大會(huì)上,GSE推進(jìn)計(jì)劃正式啟動(dòng),起始就堅(jiān)持標(biāo)準(zhǔn)開放,國際化運(yùn)行,其成員不僅包括中國信通院、中國聯(lián)通、騰訊、華為、中興、銳捷、新華三、盛科、云豹智能、鵬城實(shí)驗(yàn)室、紫金山實(shí)驗(yàn)室、清華大學(xué)、北京郵電大學(xué)、燧原科技等國內(nèi)產(chǎn)學(xué)研機(jī)構(gòu),還吸納了博通、Intel、思博倫、是德科技等國外科技公司,成員總數(shù)已超過50家。
小芯片大集群,解決國產(chǎn)工藝難題
與傳統(tǒng)智算中心組網(wǎng)方式不同,傳統(tǒng)組網(wǎng)中接入交換機(jī)(GSP)的上行鏈路帶寬通常需大于或等于下行鏈路帶寬。例如,200G的下行鏈路連接服務(wù)器網(wǎng)卡,而400G的上行鏈路連接GSF。然而,在GSE組網(wǎng)中,上行鏈路帶寬(100G)小于下行鏈路帶寬(200G)。這是因?yàn)樵贕SE網(wǎng)絡(luò)中,數(shù)據(jù)流不再簡(jiǎn)單地匯聚到單一上行鏈路進(jìn)行轉(zhuǎn)發(fā),而是通過細(xì)粒度的報(bào)文容器轉(zhuǎn)發(fā)和負(fù)載均衡機(jī)制,將同一流的報(bào)文“拆分”到多個(gè)上行鏈路進(jìn)行轉(zhuǎn)發(fā)。
在保持上行鏈路總帶寬不變的情況下,通過降低上行端口速率來增加鏈路數(shù)量,不僅可以提升多路徑的數(shù)量,使網(wǎng)絡(luò)負(fù)載更加均勻,還能擴(kuò)展spine的連接數(shù)量,從而提升組網(wǎng)規(guī)模。在相同芯片容量的條件下,當(dāng)上行鏈路從一個(gè)400G拆分為四個(gè)100G時(shí),GPU組網(wǎng)規(guī)?商嵘了谋。這使得GSE在相同芯片容量下,相較于傳統(tǒng)RoCE技術(shù),GSE可提供更高的規(guī)模擴(kuò)展能力。
展望
智算中心網(wǎng)絡(luò)涉及網(wǎng)絡(luò)芯片、網(wǎng)卡芯片及網(wǎng)絡(luò)設(shè)備等多個(gè)系統(tǒng),依賴于AI技術(shù)和上下游企業(yè)的協(xié)同創(chuàng)新,體系龐雜。GSE的全球合作伙伴正在積極構(gòu)建完善的產(chǎn)業(yè)生態(tài),原生支持GSE的DPU商用芯片即將發(fā)布,同時(shí)超大容量的GSE以太網(wǎng)交換芯片也已啟動(dòng)研發(fā)。這將加速GSE技術(shù)的商用部署,以滿足未來超十萬卡智算集群的建設(shè)需求。