2024/11/14 09:09

從UALink近期發(fā)展再看GPU Scale Up的互連方向

廠商供稿

GPU的Scale Up互連成為炙手可熱的話題，在2024年涌現(xiàn)了眾多相關(guān)的行業(yè)討論。站在阿里云的視角，什么樣的技術(shù)以及生態(tài)才能滿足云上智算集群的發(fā)展？為什么采用全新的Scale Up設(shè)計(jì)而不復(fù)用當(dāng)前的以太網(wǎng)和RDMA技術(shù)呢？本文借著行業(yè)內(nèi)的一些事件，對(duì)GPU超節(jié)點(diǎn)的Scale up互連的技術(shù)方向觀點(diǎn)進(jìn)行分享。

在GPU算力架構(gòu)發(fā)展的歷程和趨勢(shì)中，我們意識(shí)到大模型的訓(xùn)練推理對(duì)顯存容量以及帶寬有不斷增長(zhǎng)的訴求，傳統(tǒng)的GPU單機(jī)8卡方案已經(jīng)不能滿足業(yè)務(wù)發(fā)展的需要，更多卡組成超節(jié)點(diǎn)并具備大容量顯存和低延的共享的解決方案才能滿足大模型的需求。阿里云對(duì)行業(yè)技術(shù)方向進(jìn)行評(píng)估后，于今年9月份發(fā)布了Alink Sytem開(kāi)放生態(tài)和AI Infra 2.0服務(wù)器系統(tǒng)，其中底層互連協(xié)議部分兼容國(guó)際開(kāi)放標(biāo)準(zhǔn)UALink協(xié)議。

10月29日，UALink聯(lián)盟正式發(fā)布，并開(kāi)啟新成員邀請(qǐng)，發(fā)起成員包括AMD、AWS、Astera Labs、Cisco、Google、HPE、Intel、Meta 和Microsoft。其中相對(duì)于5月份的首次披露的成員，博通消失了，取而代之的是AWS和Astera Labs。其中AWS的加入引人遐想，因?yàn)锳WS一向低調(diào)，很少參與協(xié)議組織。這次AWS躬身入局UALink聯(lián)盟也展示了其對(duì)于GPU Scale Up互連需求的思考，以及對(duì)于UALink原生支持GPU互連這個(gè)技術(shù)方向的認(rèn)同。下面，我們對(duì)于Scale up方向的思考做一些展開(kāi)論述。

智算集群的互連架構(gòu)

當(dāng)前智算集群內(nèi)，圍繞著GPU存在三大互連，分別是業(yè)務(wù)網(wǎng)絡(luò)互連、Scale Out網(wǎng)絡(luò)互連、Scale Up網(wǎng)絡(luò)互連，它們分別承載了不同的職責(zé)：跨業(yè)務(wù)、集群內(nèi)、超級(jí)點(diǎn)GPU之間連通性。隨著AI應(yīng)用的爆發(fā)，推理的GPU規(guī)模最終會(huì)大大超過(guò)訓(xùn)練，由于推理服務(wù)同時(shí)追求業(yè)務(wù)請(qǐng)求的低延遲和高吞吐，Scale Up互連技術(shù)對(duì)于智算超節(jié)點(diǎn)意義重大，Scale Up主要是面向大模型推理服務(wù)以及兼顧訓(xùn)練。

-業(yè)務(wù)網(wǎng)絡(luò)互連：承載的是諸如需要計(jì)算的輸入數(shù)據(jù)，輸出結(jié)果，以及在各類存儲(chǔ)系統(tǒng)中的模型參數(shù)、checkpoint等。需要進(jìn)行極大范圍的互連，并且和云上的存儲(chǔ)、業(yè)務(wù)接口等互通，采用以太網(wǎng)技術(shù)，通常支持各類RDMA。

- Scale Out網(wǎng)絡(luò)互連：訓(xùn)練的DP、PP并行計(jì)算切分流程，通常要把集群橫向擴(kuò)展到超多的GPU機(jī)柜，當(dāng)前的訓(xùn)練規(guī)模已經(jīng)發(fā)展到10w卡，目前國(guó)際的標(biāo)準(zhǔn)趨勢(shì)是，采用專門(mén)優(yōu)化的以太網(wǎng)技術(shù)UEC（Ultra Ethernet Consortium）協(xié)議。

- Scale Up網(wǎng)絡(luò)互連：以推理的大顯存并行計(jì)算流量和訓(xùn)練的張量并行（TP）以及專家并行（MoE）流量為主，有在網(wǎng)計(jì)算的需求（可以對(duì)All reduce在Switch節(jié)點(diǎn)上進(jìn)行加速）�；ミB規(guī)模在未來(lái)很多年內(nèi)都會(huì)維持在單柜72～80個(gè)GPU，從模型大小和推理需求的發(fā)展來(lái)看，當(dāng)前規(guī)劃能滿足很長(zhǎng)一段時(shí)間的需求。

超節(jié)點(diǎn)內(nèi)部Scale Up互連：注定和設(shè)備深度綁定的協(xié)議

如何定義一個(gè)超節(jié)點(diǎn)的邊界？這個(gè)邊界就是網(wǎng)卡。超節(jié)點(diǎn)外的以太網(wǎng)是面向連接的設(shè)計(jì)，實(shí)現(xiàn)大面積的連通，超節(jié)點(diǎn)內(nèi)的是面向計(jì)算的設(shè)計(jì)，實(shí)現(xiàn)的是部件間的協(xié)同。

超節(jié)點(diǎn)內(nèi)通過(guò)部件之間深度的耦合，實(shí)現(xiàn)了高效協(xié)同（包括效率、編程習(xí)慣等），這個(gè)耦合帶來(lái)了性能（如帶寬、延遲等），特性（內(nèi)存共享、設(shè)備中斷等）的需求，在過(guò)去很長(zhǎng)一段時(shí)間內(nèi)的典型技術(shù)是PCIe，它很好的解決了以CPU為中心的互連問(wèn)題，幾乎全部的服務(wù)器設(shè)備都是PCIe接口的。

當(dāng)數(shù)據(jù)中心主要計(jì)算類型發(fā)生變化的時(shí)候，新的挑戰(zhàn)出現(xiàn)了，圍繞GPU為中心的計(jì)算帶來(lái)了新的挑戰(zhàn)：

-面向GPU的語(yǔ)義支持：GPU是超眾核架構(gòu)，其在線程調(diào)度機(jī)制，以及核心的利用率考量上和CPU有著顯著的區(qū)別。CPU的外設(shè)交互模式及RDMA交互模式等，無(wú)法有效的滿足GPU的訪存特性和性能要求。和這個(gè)使用模式比較類似的是CXL（Compute Express Link，通用計(jì)算的內(nèi)存擴(kuò)展技術(shù)）的使用方式，但CXL在此場(chǎng)景下也存在局限性，比如大量?jī)?nèi)存一致性特性支持的開(kāi)銷，以及前向兼容PCIe所有協(xié)議棧帶來(lái)的大量冗余特性。

-超高性能訴求：Scale Up相對(duì)于Scale Out和業(yè)務(wù)網(wǎng)絡(luò)需要更高一個(gè)數(shù)量級(jí)(10倍以上)的帶寬。由于GPU算力的狂飆，在當(dāng)前的算力水平下，Blackwell這一代配置了雙向共1.8T的算力，這意味著即使采用224g的phy，單芯片也需要雙向共72個(gè)serdes差分對(duì)，整機(jī)柜需要數(shù)千根。。如果采用類似網(wǎng)卡的外置控制器方案，在功耗，延遲、穩(wěn)定性等等都具有極大的劣勢(shì)。Scale Up互連采用GPU直出，將所有的控制器植入GPU內(nèi)部是不可避免的選擇。

為什么采用全新的Scale Up協(xié)議而不復(fù)用已有的協(xié)議?

Scale UP互連是用于GPU和GPU 互連，是做更大芯片擴(kuò)展的服務(wù)器，是內(nèi)存和顯存共享訪問(wèn)的語(yǔ)義，特點(diǎn)是極低延遲和大帶寬，規(guī)模在柜內(nèi)，可擴(kuò)展為多柜到百芯片級(jí)（只是一種能力保留，但是未來(lái)很多年都看不到應(yīng)用），是獨(dú)立Fabric連接，完全不同于以太網(wǎng)。

Scale Out互連是用于服務(wù)器之間是基于網(wǎng)卡+交換機(jī)的集群互連，是以太網(wǎng)協(xié)議，規(guī)模在萬(wàn)級(jí)以上，普適的互連。

國(guó)際的主流廠商，尤其是云計(jì)算為代表的應(yīng)用廠商都積極加入U(xiǎn)ALink，代表了一個(gè)廣泛的觀點(diǎn)，對(duì)于Scale Up，是有價(jià)值也有必要從底層協(xié)議到系統(tǒng)硬件進(jìn)行重新設(shè)計(jì)的，目前業(yè)界主流的GPU芯片廠家都會(huì)考慮Scale Up采用獨(dú)立的Link技術(shù)，不會(huì)和Scale Out合并設(shè)計(jì)。

特性維度

GPU+AI有著顯著的特點(diǎn)，GPU是超多核的編程模型，和擅長(zhǎng)通用性的CPU不同，需要使用到大量的內(nèi)存語(yǔ)義(load/store)訪問(wèn)，同時(shí)由于各個(gè)GPU之間需要彼此使用HBM的內(nèi)存，對(duì)跨芯片訪問(wèn)帶寬和時(shí)延有顯著的高要求。

其次Scale Up相對(duì)于Scale Out和業(yè)務(wù)網(wǎng)絡(luò)需要更高一個(gè)數(shù)量級(jí)(10倍以上)的帶寬，同時(shí)由于對(duì)于延遲的需求，需要采用GPU芯片直出互連的設(shè)計(jì)，協(xié)議的輕量化設(shè)計(jì)具備極大的價(jià)值，意味著可以將寶貴的芯片面積節(jié)省給GPU的計(jì)算核心、更高的IO集成能力、更低的功耗。

互連范圍

Scale Up互連注重的是大模型的應(yīng)用，從模型需求和互連分層的角度來(lái)說(shuō)，Scale Up的互連域是一個(gè)獨(dú)立高性能低延遲內(nèi)存共享訪問(wèn)的互連域，單柜規(guī)模在72～80個(gè)GPU，保留百級(jí)的擴(kuò)展能力（未來(lái)很多年都看不到應(yīng)用），節(jié)點(diǎn)訪問(wèn)都是顯存訪問(wèn)(load/store)，性能和延遲的第一要素，完全不需要采用過(guò)于復(fù)雜的協(xié)議，這個(gè)是Scale Out的以太網(wǎng)完全做不到的，如果以太網(wǎng)可以做到，其實(shí)就已經(jīng)簡(jiǎn)化到和Scale Up一樣了，也就不是以太網(wǎng)了，脫離了以太網(wǎng)大規(guī)模普適的根本。

當(dāng)前行業(yè)共識(shí)和UALink協(xié)議聯(lián)盟發(fā)展

業(yè)界發(fā)展最早和最成熟的是NVDIA的NVLink技術(shù)，然而NVLink并不是開(kāi)放生態(tài)，鑒于此，各家主要廠商或形成了閉環(huán)的自有協(xié)議方案（如谷歌TPU的OCS+ICI架構(gòu)及AWS的NeuronLink）。當(dāng)前行業(yè)中實(shí)際主流的，都采用的是自有技術(shù)，然而各家的演進(jìn)成本都很高。

考慮到針對(duì)終態(tài)進(jìn)行設(shè)計(jì)，以及共同對(duì)抗行業(yè)壟斷的目的，AMD將其迭代多年的Infinity Fabric協(xié)議貢獻(xiàn)出來(lái)，促成UALink聯(lián)盟的成立，希望在更多行業(yè)伙伴的助力下，持續(xù)發(fā)揮原生為GPU互連場(chǎng)景設(shè)計(jì)的優(yōu)勢(shì)，使其成為行業(yè)的開(kāi)放標(biāo)準(zhǔn)。

考慮到技術(shù)特點(diǎn)和開(kāi)放生態(tài)給云計(jì)算公司將帶來(lái)技術(shù)競(jìng)爭(zhēng)力和供應(yīng)鏈等全方位的優(yōu)勢(shì)，UALink在發(fā)布之后快速得到各家的青睞，尤其是原持有自有協(xié)議方案的公司，也積極加入其中。截止11月11日，UALink聯(lián)盟已有三十余家廠商加入，并在持續(xù)擴(kuò)展中；且涵蓋了云計(jì)算和應(yīng)用、硬件、芯片、IP等產(chǎn)業(yè)全生態(tài)。

當(dāng)前國(guó)際業(yè)界已經(jīng)形成共識(shí)：在開(kāi)放協(xié)議領(lǐng)域，以UALink為代表的Scale Up協(xié)議和UEC為代表的Scale Out協(xié)議，共同支持AI集群互連基礎(chǔ)協(xié)議的演進(jìn)。

阿里的Alink System：原生支持AI場(chǎng)景的Scale Up開(kāi)放生態(tài)

ALS(Alink System，加速器互連系統(tǒng))是阿里云目前主導(dǎo)的開(kāi)放生態(tài)，解決Scale Up互連系統(tǒng)的行業(yè)發(fā)展規(guī)范問(wèn)題。ALS將在系統(tǒng)層面同時(shí)支持UALink國(guó)際標(biāo)準(zhǔn)并兼容封閉方案。ALS包括ALS-D數(shù)據(jù)面和ALS-M管控面兩個(gè)主要組成部分。ALS-D在UALink上補(bǔ)充在網(wǎng)計(jì)算加速等特性，并支持Switch組網(wǎng)模式，其主要特點(diǎn)包括：

-性能維度，極致優(yōu)化協(xié)議以達(dá)到最小的成本實(shí)現(xiàn)極致的性能。在協(xié)議格式、重傳方案等維度的設(shè)計(jì)上充分考慮工程的性能優(yōu)化，可對(duì)報(bào)文以極低的延遲進(jìn)行解析、轉(zhuǎn)發(fā)，從而具備端到端的低時(shí)延，并且在實(shí)現(xiàn)層面可以節(jié)省大量的芯片面積。

-組網(wǎng)維度，考慮到并行計(jì)算的發(fā)展，在新的并行模式(如EP)下需要更強(qiáng)大的點(diǎn)對(duì)點(diǎn)通信能力，ALS-D系統(tǒng)定義了基于Switch硬件連接方案，并且支持單層和二層的互連拓?fù)�，提供多至�?shù)百/數(shù)千節(jié)點(diǎn)的互連，可以在各級(jí)連接方案中維持1:1的帶寬收斂比，實(shí)現(xiàn)具備PB級(jí)的顯存共享，為AI計(jì)算的通信操作提供靈活的規(guī)模支撐。

互連的管控運(yùn)維也是系統(tǒng)設(shè)計(jì)的重要組成部分，ALS-M的目標(biāo)是為不同的芯片方案提供標(biāo)準(zhǔn)化的接入方案，符合此規(guī)范的設(shè)備均可靈活接入應(yīng)用方系統(tǒng)。無(wú)論是對(duì)于開(kāi)放生態(tài)（如UALink系統(tǒng)），還是封閉廠商，ALS使用統(tǒng)一的軟件接口。同時(shí)，ALS-M為云計(jì)算等集群管理場(chǎng)景，提供單租、多租等靈活和彈性的配置能力。

ALink System的目標(biāo)是，聚焦GPU算力需求、驅(qū)動(dòng)云計(jì)算定義的開(kāi)放生態(tài)，形成智算超節(jié)點(diǎn)的競(jìng)爭(zhēng)力。

給作者點(diǎn)贊

0 VS 0

寫(xiě)得不太好

免責(zé)聲明：本文僅代表作者個(gè)人觀點(diǎn)，與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí)，對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾，請(qǐng)讀者僅作參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

相關(guān)鏈接

以太網(wǎng)服務(wù)器 AMD Cisco Google