GPU的Scale Up互連成為炙手可熱的話題,在2024年涌現(xiàn)了眾多相關(guān)的行業(yè)討論。站在阿里云的視角,什么樣的技術(shù)以及生態(tài)才能滿足云上智算集群的發(fā)展?為什么采用全新的Scale Up設(shè)計(jì)而不復(fù)用當(dāng)前的以太網(wǎng)和RDMA技術(shù)呢?本文借著行業(yè)內(nèi)的一些事件,對(duì)GPU超節(jié)點(diǎn)的Scale up互連的技術(shù)方向觀點(diǎn)進(jìn)行分享。
在GPU算力架構(gòu)發(fā)展的歷程和趨勢(shì)中,我們意識(shí)到大模型的訓(xùn)練推理對(duì)顯存容量以及帶寬有不斷增長(zhǎng)的訴求,傳統(tǒng)的GPU單機(jī)8卡方案已經(jīng)不能滿足業(yè)務(wù)發(fā)展的需要,更多卡組成超節(jié)點(diǎn)并具備大容量顯存和低延的共享的解決方案才能滿足大模型的需求。阿里云對(duì)行業(yè)技術(shù)方向進(jìn)行評(píng)估后,于今年9月份發(fā)布了Alink Sytem開(kāi)放生態(tài)和AI Infra 2.0服務(wù)器系統(tǒng),其中底層互連協(xié)議部分兼容國(guó)際開(kāi)放標(biāo)準(zhǔn)UALink協(xié)議。
10月29日,UALink聯(lián)盟正式發(fā)布,并開(kāi)啟新成員邀請(qǐng),發(fā)起成員包括AMD、AWS、Astera Labs、Cisco、Google、HPE、Intel、Meta 和Microsoft。其中相對(duì)于5月份的首次披露的成員,博通消失了,取而代之的是AWS和Astera Labs。其中AWS的加入引人遐想,因?yàn)锳WS一向低調(diào),很少參與協(xié)議組織。這次AWS躬身入局UALink聯(lián)盟也展示了其對(duì)于GPU Scale Up互連需求的思考,以及對(duì)于UALink原生支持GPU互連這個(gè)技術(shù)方向的認(rèn)同。下面,我們對(duì)于Scale up方向的思考做一些展開(kāi)論述。
智算集群的互連架構(gòu)
當(dāng)前智算集群內(nèi),圍繞著GPU存在三大互連,分別是業(yè)務(wù)網(wǎng)絡(luò)互連、Scale Out網(wǎng)絡(luò)互連、Scale Up網(wǎng)絡(luò)互連,它們分別承載了不同的職責(zé):跨業(yè)務(wù)、集群內(nèi)、超級(jí)點(diǎn)GPU之間連通性。隨著AI應(yīng)用的爆發(fā),推理的GPU規(guī)模最終會(huì)大大超過(guò)訓(xùn)練,由于推理服務(wù)同時(shí)追求業(yè)務(wù)請(qǐng)求的低延遲和高吞吐,Scale Up互連技術(shù)對(duì)于智算超節(jié)點(diǎn)意義重大,Scale Up主要是面向大模型推理服務(wù)以及兼顧訓(xùn)練。
-業(yè)務(wù)網(wǎng)絡(luò)互連:承載的是諸如需要計(jì)算的輸入數(shù)據(jù),輸出結(jié)果,以及在各類存儲(chǔ)系統(tǒng)中的模型參數(shù)、checkpoint等。需要進(jìn)行極大范圍的互連,并且和云上的存儲(chǔ)、業(yè)務(wù)接口等互通,采用以太網(wǎng)技術(shù),通常支持各類RDMA。
- Scale Out網(wǎng)絡(luò)互連:訓(xùn)練的DP、PP并行計(jì)算切分流程,通常要把集群橫向擴(kuò)展到超多的GPU機(jī)柜,當(dāng)前的訓(xùn)練規(guī)模已經(jīng)發(fā)展到10w卡,目前國(guó)際的標(biāo)準(zhǔn)趨勢(shì)是,采用專門(mén)優(yōu)化的以太網(wǎng)技術(shù)UEC(Ultra Ethernet Consortium)協(xié)議。
- Scale Up網(wǎng)絡(luò)互連:以推理的大顯存并行計(jì)算流量和訓(xùn)練的張量并行(TP)以及專家并行(MoE)流量為主,有在網(wǎng)計(jì)算的需求(可以對(duì)All reduce在Switch節(jié)點(diǎn)上進(jìn)行加速);ミB規(guī)模在未來(lái)很多年內(nèi)都會(huì)維持在單柜72~80個(gè)GPU,從模型大小和推理需求的發(fā)展來(lái)看,當(dāng)前規(guī)劃能滿足很長(zhǎng)一段時(shí)間的需求。
超節(jié)點(diǎn)內(nèi)部Scale Up互連:注定和設(shè)備深度綁定的協(xié)議
如何定義一個(gè)超節(jié)點(diǎn)的邊界?這個(gè)邊界就是網(wǎng)卡。超節(jié)點(diǎn)外的以太網(wǎng)是面向連接的設(shè)計(jì),實(shí)現(xiàn)大面積的連通,超節(jié)點(diǎn)內(nèi)的是面向計(jì)算的設(shè)計(jì),實(shí)現(xiàn)的是部件間的協(xié)同。
超節(jié)點(diǎn)內(nèi)通過(guò)部件之間深度的耦合,實(shí)現(xiàn)了高效協(xié)同(包括效率、編程習(xí)慣等),這個(gè)耦合帶來(lái)了性能(如帶寬、延遲等),特性(內(nèi)存共享、設(shè)備中斷等)的需求,在過(guò)去很長(zhǎng)一段時(shí)間內(nèi)的典型技術(shù)是PCIe,它很好的解決了以CPU為中心的互連問(wèn)題,幾乎全部的服務(wù)器設(shè)備都是PCIe接口的。
當(dāng)數(shù)據(jù)中心主要計(jì)算類型發(fā)生變化的時(shí)候,新的挑戰(zhàn)出現(xiàn)了,圍繞GPU為中心的計(jì)算帶來(lái)了新的挑戰(zhàn):
-面向GPU的語(yǔ)義支持:GPU是超眾核架構(gòu),其在線程調(diào)度機(jī)制,以及核心的利用率考量上和CPU有著顯著的區(qū)別。CPU的外設(shè)交互模式及RDMA交互模式等,無(wú)法有效的滿足GPU的訪存特性和性能要求。和這個(gè)使用模式比較類似的是CXL(Compute Express Link,通用計(jì)算的內(nèi)存擴(kuò)展技術(shù))的使用方式,但CXL在此場(chǎng)景下也存在局限性,比如大量?jī)?nèi)存一致性特性支持的開(kāi)銷,以及前向兼容PCIe所有協(xié)議棧帶來(lái)的大量冗余特性。
-超高性能訴求:Scale Up相對(duì)于Scale Out和業(yè)務(wù)網(wǎng)絡(luò)需要更高一個(gè)數(shù)量級(jí)(10倍以上)的帶寬。由于GPU算力的狂飆,在當(dāng)前的算力水平下,Blackwell這一代配置了雙向共1.8T的算力,這意味著即使采用224g的phy,單芯片也需要雙向共72個(gè)serdes差分對(duì),整機(jī)柜需要數(shù)千根。。如果采用類似網(wǎng)卡的外置控制器方案,在功耗,延遲、穩(wěn)定性等等都具有極大的劣勢(shì)。Scale Up互連采用GPU直出,將所有的控制器植入GPU內(nèi)部是不可避免的選擇。
為什么采用全新的Scale Up協(xié)議而不復(fù)用已有的協(xié)議?
Scale UP互連是用于GPU和GPU 互連,是做更大芯片擴(kuò)展的服務(wù)器,是內(nèi)存和顯存共享訪問(wèn)的語(yǔ)義,特點(diǎn)是極低延遲和大帶寬,規(guī)模在柜內(nèi),可擴(kuò)展為多柜到百芯片級(jí)(只是一種能力保留,但是未來(lái)很多年都看不到應(yīng)用),是獨(dú)立Fabric連接,完全不同于以太網(wǎng)。
Scale Out互連是用于服務(wù)器之間是基于網(wǎng)卡+交換機(jī)的集群互連,是以太網(wǎng)協(xié)議,規(guī)模在萬(wàn)級(jí)以上,普適的互連。
國(guó)際的主流廠商,尤其是云計(jì)算為代表的應(yīng)用廠商都積極加入U(xiǎn)ALink,代表了一個(gè)廣泛的觀點(diǎn),對(duì)于Scale Up,是有價(jià)值也有必要從底層協(xié)議到系統(tǒng)硬件進(jìn)行重新設(shè)計(jì)的,目前業(yè)界主流的GPU芯片廠家都會(huì)考慮Scale Up采用獨(dú)立的Link技術(shù),不會(huì)和Scale Out合并設(shè)計(jì)。
特性維度
GPU+AI有著顯著的特點(diǎn),GPU是超多核的編程模型,和擅長(zhǎng)通用性的CPU不同,需要使用到大量的內(nèi)存語(yǔ)義(load/store)訪問(wèn),同時(shí)由于各個(gè)GPU之間需要彼此使用HBM的內(nèi)存,對(duì)跨芯片訪問(wèn)帶寬和時(shí)延有顯著的高要求。
其次Scale Up相對(duì)于Scale Out和業(yè)務(wù)網(wǎng)絡(luò)需要更高一個(gè)數(shù)量級(jí)(10倍以上)的帶寬,同時(shí)由于對(duì)于延遲的需求,需要采用GPU芯片直出互連的設(shè)計(jì),協(xié)議的輕量化設(shè)計(jì)具備極大的價(jià)值,意味著可以將寶貴的芯片面積節(jié)省給GPU的計(jì)算核心、更高的IO集成能力、更低的功耗。
互連范圍
Scale Up互連注重的是大模型的應(yīng)用,從模型需求和互連分層的角度來(lái)說(shuō),Scale Up的互連域是一個(gè)獨(dú)立高性能低延遲內(nèi)存共享訪問(wèn)的互連域,單柜規(guī)模在72~80個(gè)GPU,保留百級(jí)的擴(kuò)展能力(未來(lái)很多年都看不到應(yīng)用),節(jié)點(diǎn)訪問(wèn)都是顯存訪問(wèn)(load/store),性能和延遲的第一要素,完全不需要采用過(guò)于復(fù)雜的協(xié)議,這個(gè)是Scale Out的以太網(wǎng)完全做不到的,如果以太網(wǎng)可以做到,其實(shí)就已經(jīng)簡(jiǎn)化到和Scale Up一樣了,也就不是以太網(wǎng)了,脫離了以太網(wǎng)大規(guī)模普適的根本。
當(dāng)前行業(yè)共識(shí)和UALink協(xié)議聯(lián)盟發(fā)展
業(yè)界發(fā)展最早和最成熟的是NVDIA的NVLink技術(shù),然而NVLink并不是開(kāi)放生態(tài),鑒于此,各家主要廠商或形成了閉環(huán)的自有協(xié)議方案(如谷歌TPU的OCS+ICI架構(gòu)及AWS的NeuronLink)。當(dāng)前行業(yè)中實(shí)際主流的,都采用的是自有技術(shù),然而各家的演進(jìn)成本都很高。
考慮到針對(duì)終態(tài)進(jìn)行設(shè)計(jì),以及共同對(duì)抗行業(yè)壟斷的目的,AMD將其迭代多年的Infinity Fabric協(xié)議貢獻(xiàn)出來(lái),促成UALink聯(lián)盟的成立,希望在更多行業(yè)伙伴的助力下,持續(xù)發(fā)揮原生為GPU互連場(chǎng)景設(shè)計(jì)的優(yōu)勢(shì),使其成為行業(yè)的開(kāi)放標(biāo)準(zhǔn)。
考慮到技術(shù)特點(diǎn)和開(kāi)放生態(tài)給云計(jì)算公司將帶來(lái)技術(shù)競(jìng)爭(zhēng)力和供應(yīng)鏈等全方位的優(yōu)勢(shì),UALink在發(fā)布之后快速得到各家的青睞,尤其是原持有自有協(xié)議方案的公司,也積極加入其中。截止11月11日,UALink聯(lián)盟已有三十余家廠商加入,并在持續(xù)擴(kuò)展中;且涵蓋了云計(jì)算和應(yīng)用、硬件、芯片、IP等產(chǎn)業(yè)全生態(tài)。
當(dāng)前國(guó)際業(yè)界已經(jīng)形成共識(shí):在開(kāi)放協(xié)議領(lǐng)域,以UALink為代表的Scale Up協(xié)議和UEC為代表的Scale Out協(xié)議,共同支持AI集群互連基礎(chǔ)協(xié)議的演進(jìn)。
阿里的Alink System:原生支持AI場(chǎng)景的Scale Up開(kāi)放生態(tài)
ALS(Alink System,加速器互連系統(tǒng))是阿里云目前主導(dǎo)的開(kāi)放生態(tài),解決Scale Up互連系統(tǒng)的行業(yè)發(fā)展規(guī)范問(wèn)題。ALS將在系統(tǒng)層面同時(shí)支持UALink國(guó)際標(biāo)準(zhǔn)并兼容封閉方案。ALS包括ALS-D數(shù)據(jù)面和ALS-M管控面兩個(gè)主要組成部分。ALS-D在UALink上補(bǔ)充在網(wǎng)計(jì)算加速等特性,并支持Switch組網(wǎng)模式,其主要特點(diǎn)包括:
-性能維度,極致優(yōu)化協(xié)議以達(dá)到最小的成本實(shí)現(xiàn)極致的性能。在協(xié)議格式、重傳方案等維度的設(shè)計(jì)上充分考慮工程的性能優(yōu)化,可對(duì)報(bào)文以極低的延遲進(jìn)行解析、轉(zhuǎn)發(fā),從而具備端到端的低時(shí)延,并且在實(shí)現(xiàn)層面可以節(jié)省大量的芯片面積。
-組網(wǎng)維度,考慮到并行計(jì)算的發(fā)展,在新的并行模式(如EP)下需要更強(qiáng)大的點(diǎn)對(duì)點(diǎn)通信能力,ALS-D系統(tǒng)定義了基于Switch硬件連接方案,并且支持單層和二層的互連拓?fù),提供多至?shù)百/數(shù)千節(jié)點(diǎn)的互連,可以在各級(jí)連接方案中維持1:1的帶寬收斂比,實(shí)現(xiàn)具備PB級(jí)的顯存共享,為AI計(jì)算的通信操作提供靈活的規(guī)模支撐。
互連的管控運(yùn)維也是系統(tǒng)設(shè)計(jì)的重要組成部分,ALS-M的目標(biāo)是為不同的芯片方案提供標(biāo)準(zhǔn)化的接入方案,符合此規(guī)范的設(shè)備均可靈活接入應(yīng)用方系統(tǒng)。無(wú)論是對(duì)于開(kāi)放生態(tài)(如UALink系統(tǒng)),還是封閉廠商,ALS使用統(tǒng)一的軟件接口。同時(shí),ALS-M為云計(jì)算等集群管理場(chǎng)景,提供單租、多租等靈活和彈性的配置能力。
ALink System的目標(biāo)是,聚焦GPU算力需求、驅(qū)動(dòng)云計(jì)算定義的開(kāi)放生態(tài),形成智算超節(jié)點(diǎn)的競(jìng)爭(zhēng)力。