2024/10/11 08:11

全面擁抱UEC！AMD發(fā)布第三代DPU Salina ：以AI速度交付網(wǎng)絡(luò)創(chuàng)新

C114通信網(wǎng) 岳明

C114訊 10月11日消息（岳明）大模型需要大算力，大算力需要大集群，大集群需要大網(wǎng)絡(luò)！

如何去構(gòu)建這張大網(wǎng)絡(luò)，在本周舉行的“Advancing AI 2024”上，AMD給出了明確的答案：全面擁抱以太網(wǎng)，全面擁抱DPU。

UEC加速成熟：Ethernet is the answer

與傳統(tǒng)數(shù)據(jù)中心存在很大不同，主要由GPU服務(wù)器聯(lián)網(wǎng)構(gòu)成的智算中心需要完全不同的網(wǎng)絡(luò)架構(gòu)。

當(dāng)大模型訓(xùn)練時(shí)，并行計(jì)算節(jié)點(diǎn)越多，通信效率越重要，智算網(wǎng)絡(luò)性能成為集群算力提升的關(guān)鍵。但傳統(tǒng)網(wǎng)絡(luò)技術(shù)難以適應(yīng)大規(guī)模AI集群的發(fā)展需求，在實(shí)際組網(wǎng)過程中面臨著四大難題：大規(guī)模網(wǎng)絡(luò)擁塞控制難、突發(fā)大象流負(fù)載均衡難、巨量鏈路長期穩(wěn)定運(yùn)行難、敏感隱私數(shù)據(jù)安全保障難。

對(duì)此，業(yè)界有幾種不同的解決方案。比如英偉達(dá)主導(dǎo)的InfiniBand，雖然現(xiàn)在市占率很高，但I(xiàn)nfiniBand在產(chǎn)業(yè)開放性、部署成本方面非常不友好。另外就是從底層革新傳統(tǒng)以太網(wǎng)機(jī)制，在最大限度的利用以太網(wǎng)產(chǎn)業(yè)開放性和成熟性的同時(shí)，重構(gòu)高擴(kuò)展、高穩(wěn)定、高可靠的以太網(wǎng)堆棧，滿足大規(guī)模AI和HPC不斷增長的網(wǎng)絡(luò)需求。UEC就是該技術(shù)路徑的典型代表，通過構(gòu)建支持RoCE（RDMA over Converged Ethernet）的無損網(wǎng)絡(luò)，做到不丟包，支持以太網(wǎng)RDMA，滿足高帶寬和高利用率需求。

在“Advancing AI 2024”上，AMD執(zhí)行副總裁，數(shù)據(jù)中心解決方案事業(yè)部總經(jīng)理Forrest Norrod就指出，網(wǎng)絡(luò)成為制約AI系統(tǒng)性能的關(guān)鍵，平均30%的訓(xùn)練時(shí)間被用來等待聯(lián)網(wǎng)；而在訓(xùn)練和分布式推理中，通信更是占40%-75%的時(shí)間。這對(duì)于動(dòng)輒部署萬卡集群的用戶而言是難以承受的。

在他看來，UEC是AI網(wǎng)絡(luò)變革的首選：從總體擁有成本（TCO）角度來看，相比較于InfiniBand，以太網(wǎng)下降了50%；可擴(kuò)展性角度來看，以太網(wǎng)可以支持高達(dá)100萬+GPU的超大規(guī)模集群部署，遠(yuǎn)遠(yuǎn)超過InfiniBand；從生態(tài)系統(tǒng)的角度來看，UEC聯(lián)盟已經(jīng)有超過97名成員，其中包括微軟、Meta、AMD、博通等眾多大廠，UEC1.0規(guī)范也將在明年一季度發(fā)布。有意思的是，英偉達(dá)在前段時(shí)間也加入了UEC。

在“Advancing AI 2024”的現(xiàn)場(chǎng)，AMD，思科、微軟等多位技術(shù)負(fù)責(zé)人均進(jìn)行了分享。他們認(rèn)為在當(dāng)前的RDMA 環(huán)境下，超以太網(wǎng)協(xié)議有望支持百萬節(jié)點(diǎn)互聯(lián)，同時(shí)以太網(wǎng)的開放特性，能夠讓諸如LPO等新技術(shù)加速滲透，帶來高性價(jià)比、高容量、高開放程度的AI網(wǎng)絡(luò)。

第三代DPU Salina：以AI速度交付網(wǎng)絡(luò)創(chuàng)新

在AMD的AI網(wǎng)絡(luò)戰(zhàn)略拼圖中，既有關(guān)注底層芯片級(jí)互聯(lián)的Infinity Fabric，也有面向數(shù)據(jù)中心前端與后端網(wǎng)絡(luò)的DPU+ AI NIC產(chǎn)品組合。

在“Advancing AI 2024”的現(xiàn)場(chǎng)，AMD正式發(fā)布了面向前端網(wǎng)絡(luò)的第三代DPU產(chǎn)品—Pensando Salina 400，以及面向后端網(wǎng)絡(luò)的AI NIC產(chǎn)品—Pensando Pollara 400。

其中，Pensando Salina 400是面向前端網(wǎng)絡(luò)的DPU，也是是全球性能最高、可編程性最強(qiáng)的DPU產(chǎn)品。

從AMD提供的產(chǎn)品技術(shù)規(guī)格上來看，Salina 400采用5nm制程工藝打造，與上一代產(chǎn)品相比，其性能、帶寬和規(guī)模提高了2倍。同時(shí)，該DPU還支持400G吞吐量以實(shí)現(xiàn)快速數(shù)據(jù)傳輸速率，可優(yōu)化數(shù)據(jù)驅(qū)動(dòng)型AI應(yīng)用的性能、效率、安全性和可擴(kuò)展性。而且，AMD Pensando DPU支持軟件前向兼容，節(jié)省了應(yīng)用程序開發(fā)所需的時(shí)間。

在會(huì)議現(xiàn)場(chǎng)，包括IBM云、微軟Azure、甲骨文云、思科等用戶的技術(shù)高管也都談到了AMD Pensando DPU在不同應(yīng)用場(chǎng)景中的價(jià)值。微軟Azure主要是用基于DPU的智能交換機(jī)來完成SDN解耦，而甲骨文云和IBM云則是硬件上用到DPU卡，軟件上除了使用Pensando提供的SDK和庫，還有定制的邏輯應(yīng)用，方便客戶添加軟件定義的服務(wù)。

Pensando Pollara 400是面向后端網(wǎng)絡(luò)的AI NIC產(chǎn)品，也是業(yè)內(nèi)首個(gè)支持UEC ready AI NIC。Pensando Pollara 400支持下一代RDMA軟件，并由開放的網(wǎng)絡(luò)生態(tài)系統(tǒng)支持，可以提供加速器到加速器通信的領(lǐng)先性能、可擴(kuò)展性和效率。

在產(chǎn)品上市時(shí)間方面，Pensando Salina DPU和Pensando Pollara 400 均在今年第四季度向客戶提供樣品，并有望在明年上半年上市。

給作者點(diǎn)贊

0 VS 0

寫得不太好

版權(quán)說明：凡注明來源為“C114通信網(wǎng)”的文章皆屬C114版權(quán)所有，除與C114簽署內(nèi)容授權(quán)協(xié)議的單位外，其他單位未經(jīng)允許禁止轉(zhuǎn)載、摘編，違者必究。如需使用，請(qǐng)聯(lián)系021-54451141。其中編譯類僅出于傳遞更多信息之目的，系C114對(duì)海外相關(guān)站點(diǎn)最新信息的翻譯稿，僅供參考，不代表證實(shí)其描述或贊同其觀點(diǎn)，投資者據(jù)此操作，風(fēng)險(xiǎn)自擔(dān)；翻譯質(zhì)量問題請(qǐng)指正。

相關(guān)鏈接

網(wǎng)絡(luò)AMD 以太網(wǎng)服務(wù)器微軟

UL Solutions推出AI文本生成基準(zhǔn)測(cè)試，支持英偉達(dá)、AMD、英特爾三家顯卡
IT之家溯波（實(shí)習(xí)）12-11
有望徹底改變芯片封裝！AMD收獲玻璃基板專利：Intel、三星等都在布局
快科技黑白11-28
AMD啟動(dòng)班加羅爾設(shè)計(jì)中心第二期建設(shè)
愛集微趙月11-26
臺(tái)積電高雄2nm廠舉行進(jìn)機(jī)儀式，蘋果、AMD預(yù)計(jì)是首批客戶
IT之家問舟11-26

全面擁抱UEC！AMD發(fā)布第三代DPU Salina ：以AI速度交付網(wǎng)絡(luò)創(chuàng)新

全面擁抱UEC！AMD發(fā)布第三代DPU Salina ：以AI速度交付網(wǎng)絡(luò)創(chuàng)新