在驚嘆于 AI 算力的迅猛增長(zhǎng)時(shí),我們不禁會(huì)想到那個(gè)經(jīng)典的哲學(xué)問(wèn)題:是先有雞還是先有蛋?換句話說(shuō),是 AI 的崛起成就了 NVIDIA,還是 NVIDIA 的創(chuàng)新推動(dòng)了AI市場(chǎng)的蓬勃發(fā)展?
這個(gè)問(wèn)題的答案,或許可以從 NVIDIA 創(chuàng)始人兼首席執(zhí)行官黃仁勛的理念中找到線索。他曾說(shuō)過(guò)最喜歡的是“Zero-Billion-Dollar Markets”——那些尚未被滿足的需求、有待解決的問(wèn)題,都具備成為這一市場(chǎng)的潛力,而這也會(huì)促使他去思考,如何以全新的方式去創(chuàng)造市場(chǎng)而不是在已有的市場(chǎng)中簡(jiǎn)單迭代。事實(shí)證明,NVIDIA 正是通過(guò)革命性的 GPU,將 AI 應(yīng)用從概念落地,并轉(zhuǎn)變?yōu)榉睒s且潛力無(wú)限的產(chǎn)業(yè),從而證明了技術(shù)創(chuàng)新對(duì)塑造市場(chǎng)的關(guān)鍵作用。
當(dāng)前,生成式 AI 的興起帶來(lái)了新的挑戰(zhàn)和機(jī)遇。隨著 AI 大模型參數(shù)規(guī)模的不斷擴(kuò)大,GPU 集群的急劇擴(kuò)張對(duì)網(wǎng)絡(luò)通信提出了更高要求。面對(duì)傳統(tǒng)以太網(wǎng)在大規(guī)模 AI 算力集群中的捉襟見(jiàn)肘,NVIDIA 率先推出了專門(mén)面向 AI 的以太網(wǎng),不僅提升了算力集群的性能和效率,更是在 AI 算力網(wǎng)絡(luò)市場(chǎng)開(kāi)辟了新的戰(zhàn)場(chǎng)。
AI 的爆發(fā)驅(qū)動(dòng)了以太網(wǎng)的變革,是否預(yù)示著又一個(gè)“Zero-Billion-Dollar Markets”的誕生?日前,NVIDIA 網(wǎng)絡(luò)高級(jí)副總裁 Gilad Shainer 接受了與非網(wǎng)采訪,分享了他對(duì) AI 以太網(wǎng)變革的洞見(jiàn),以及 NVIDIA 在這一領(lǐng)域的戰(zhàn)略布局和未來(lái)愿景。
AI“運(yùn)力”變革——生成式 AI 發(fā)展的關(guān)鍵
在生成式 AI 的迅猛增長(zhǎng)下,行業(yè)面臨著一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn):網(wǎng)絡(luò)技術(shù)的變革。這是因?yàn)樵诔笠?guī)模 GPU 集群中,網(wǎng)絡(luò)“運(yùn)力”和 GPU“算力”共同構(gòu)成了集群的整體性能,只有二者都達(dá)到高性能時(shí),才能實(shí)現(xiàn)計(jì)算性能和效率的最大化,AI 集群才能發(fā)揮出最大的效力,實(shí)現(xiàn)高效的數(shù)據(jù)處理和智能計(jì)算。這也意味著,這場(chǎng)變革不僅關(guān)乎技術(shù)進(jìn)步,更關(guān)乎整個(gè)行業(yè)如何重新定義網(wǎng)絡(luò)在推動(dòng)業(yè)務(wù)創(chuàng)新和數(shù)字化轉(zhuǎn)型中的作用。
隨著 AI 工作負(fù)載的增長(zhǎng),特別是大語(yǔ)言模型和其他基礎(chǔ) AI 模型的發(fā)展,數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)正經(jīng)歷著革命性變化。以 AI 工廠和 AI 云為代表的新型數(shù)據(jù)中心逐漸成為主流,它們專為 AI 工作負(fù)載量身定制,加速計(jì)算和高性能網(wǎng)絡(luò)在這里至關(guān)重要。
從所面向的應(yīng)用場(chǎng)景來(lái)看,AI 工廠是 NVIDIA 面向大規(guī)模、大算力、高性能 AI 場(chǎng)景下,基于其 NVLink+InfiniBand 無(wú)損網(wǎng)絡(luò)架構(gòu)所實(shí)現(xiàn)的新型 AI 數(shù)據(jù)中心,一些成功的大語(yǔ)言模型都基于這一網(wǎng)絡(luò)架構(gòu);而 AI 云則需要響應(yīng)客戶在云環(huán)境中構(gòu)建其生成式 AI 或 AI 工作負(fù)載的需求,這一場(chǎng)景具有典型的多租戶、工作負(fù)載多樣性等特點(diǎn)。
據(jù) Gilad Shainer 分享,近一半已經(jīng)部署的 AI 云,在計(jì)算網(wǎng)絡(luò)上采用的是傳統(tǒng)以太網(wǎng)。另?yè)?jù) IDC 數(shù)據(jù)顯示,目前面向數(shù)據(jù)中心的網(wǎng)絡(luò)交換機(jī)市場(chǎng)中,85% 以上的產(chǎn)品依然采用以太網(wǎng)技術(shù)。
過(guò)去數(shù)十年以來(lái),傳統(tǒng)以太網(wǎng)憑借兼容性、成本效益、靈活性和多租戶場(chǎng)景支持等優(yōu)勢(shì),已經(jīng)成為各行業(yè)網(wǎng)絡(luò)基礎(chǔ)設(shè)施的核心,廣泛應(yīng)用于數(shù)據(jù)中心和企業(yè)網(wǎng)絡(luò)。
然而,隨著 AI 應(yīng)用的快速發(fā)展,生成式 AI 對(duì)低延遲、高帶寬、無(wú)限可擴(kuò)展和高可靠性等根本需求,恰恰是傳統(tǒng)以太網(wǎng)難以滿足的。它作為有損網(wǎng)絡(luò),固有的短板包括:更高的交換機(jī)延遲;分割緩沖交換機(jī)架構(gòu),而這可能會(huì)導(dǎo)致帶寬分配不公平;針對(duì) AI 工作負(fù)載生成的大象流,基于傳統(tǒng) ECMP 的負(fù)載均衡策略面臨優(yōu)化挑戰(zhàn);此外還有性能隔離和多業(yè)務(wù)噪聲問(wèn)題等等。
在實(shí)際的 AI 工作負(fù)載中,這會(huì)引起一系列性能和效率問(wèn)題,例如:如果出現(xiàn)鏈路故障,可能會(huì)導(dǎo)致集群的 AI 性能減半;交換機(jī)帶寬分配不均導(dǎo)致有些業(yè)務(wù)的延遲增加,最終導(dǎo)致性能瓶頸,進(jìn)而阻礙業(yè)務(wù)決策,特別是在金融行業(yè)中的高頻交易和風(fēng)險(xiǎn)管理,以及醫(yī)療領(lǐng)域的遠(yuǎn)程診斷和緊急響應(yīng)等應(yīng)用場(chǎng)景中;此外,在應(yīng)對(duì)計(jì)算密集型任務(wù)時(shí),傳統(tǒng)以太網(wǎng)制約了數(shù)據(jù)中心的擴(kuò)展和服務(wù)效率;并且,AI 應(yīng)用的多樣化和多租戶環(huán)境,也要求網(wǎng)絡(luò)提供更靈活的配置和性能隔離。
面對(duì)傳統(tǒng)以太網(wǎng)的種種掣肘,NVIDIA 率先對(duì)其發(fā)起變革,這也正是 NVIDIA Spectrum-X 以太網(wǎng)網(wǎng)絡(luò)平臺(tái)的誕生背景。
作為全球首個(gè)專為 AI 打造的以太網(wǎng)架構(gòu),Spectrum-X 可以提供端到端 400Gb/s帶寬,將生成式 AI 網(wǎng)絡(luò)性能提升至傳統(tǒng)以太網(wǎng)的 1.6 倍,并提供一致且可預(yù)測(cè)的結(jié)果。這一創(chuàng)新不僅擴(kuò)展了 NVIDIA 業(yè)務(wù)的觸及范圍,更重要的是,它為企業(yè)客戶解鎖了分布式 AI 加速計(jì)算的更大潛能,推動(dòng)業(yè)務(wù)向更高效率和更廣闊的可能性邁進(jìn)。
目前,NVIDIA 在網(wǎng)絡(luò)領(lǐng)域的戰(zhàn)略布局正在收獲顯著成效。據(jù)其 2025 財(cái)年 Q2 財(cái)報(bào),網(wǎng)絡(luò)收入環(huán)比增長(zhǎng) 16%,其中,AI 以太網(wǎng)收入(包括 Spectrum-X 端到端以太網(wǎng)平臺(tái))環(huán)比翻一番。并且,Spectrum-X 平臺(tái)獲得了 OEM 和 ODM 的廣泛支持,并被云服務(wù)商、GPU 云提供商和企業(yè)廣泛采用。
Gilad Shainer 透露,Spectrum-X 正在批量交付中,有望在一年內(nèi)成為一個(gè)價(jià)值數(shù)十億美元的產(chǎn)品線。同時(shí),NVIDIA 正在不斷優(yōu)化供應(yīng)鏈策略,以滿足市場(chǎng)的旺盛需求。未來(lái),NVIDIA 計(jì)劃每年推出新一代 Spectrum-X 產(chǎn)品,通過(guò)提供更高的帶寬、更多的端口以及增強(qiáng)的軟件功能集和可編程性,來(lái)推動(dòng) AI 以太網(wǎng)網(wǎng)絡(luò)性能的持續(xù)領(lǐng)先。
專為生成式 AI 而生的 Spectrum-X
Spectrum-X 以 Spectrum SN5600 交換機(jī)和 BlueField-3 SuperNIC 為核心,通過(guò)無(wú)損網(wǎng)絡(luò)與 RDMA、動(dòng)態(tài)路由、擁塞控制等創(chuàng)新,不僅實(shí)現(xiàn)了最大帶寬和業(yè)務(wù)噪聲隔離,更為數(shù)千個(gè)并發(fā)的AI任務(wù)提供了可預(yù)測(cè)的結(jié)果。以下是 Spectrum-X 面向 AI 應(yīng)用的核心技術(shù):
∙無(wú)損網(wǎng)絡(luò)技術(shù)和 RDMA(遠(yuǎn)程直接內(nèi)存訪問(wèn))革新了數(shù)據(jù)傳輸,為 AI 負(fù)載提供了快速、直接的數(shù)據(jù)訪問(wèn)能力,提高了傳輸效率。這一技術(shù)特別適合對(duì)性能要求極高的 AI 應(yīng)用。
∙動(dòng)態(tài)路由和基于包的負(fù)載分擔(dān)技術(shù),有效解決了 AI 工作負(fù)載產(chǎn)生的大象型數(shù)據(jù)流的負(fù)載均衡問(wèn)題,這些數(shù)據(jù)流容易導(dǎo)致網(wǎng)絡(luò)擁塞和延遲。Spectrum-X 通過(guò)端到端的動(dòng)態(tài)路由和基于數(shù)據(jù)包的負(fù)載均衡,為 AI 和數(shù)據(jù)密集型應(yīng)用提供了高性能、低延遲和無(wú)限可擴(kuò)展的網(wǎng)絡(luò)環(huán)境。
∙擁塞控制為多租戶 AI 云環(huán)境提供了高效、低延遲的網(wǎng)絡(luò)控制策略。通過(guò)硬件遙測(cè)技術(shù),Spectrum-X 端到端解決方案能夠快速響應(yīng)網(wǎng)絡(luò)擁塞,實(shí)現(xiàn)實(shí)時(shí)流量控制,避免了傳統(tǒng)方法中可能出現(xiàn)的高延遲和數(shù)據(jù)包丟失問(wèn)題。
∙在性能隔離和安全方面,Spectrum-X 平臺(tái)的 Spectrum-4 在交換網(wǎng)絡(luò)上和 BlueField-3 SuperNIC 和 DPU 端側(cè)提供了全面的解決方案。具備了硬件級(jí)的安全功能,BlueField-3 DPU 在端側(cè)能夠?qū)崿F(xiàn)全線速的數(shù)據(jù)處理和加解密,同時(shí)保持業(yè)務(wù)的高性能。BlueField-3 SuperNIC 和 Spectrum-4 交換機(jī)的配合在以太網(wǎng)上率先實(shí)現(xiàn)了多任務(wù)性能隔離,確保了多用戶和多應(yīng)用環(huán)境下的可預(yù)測(cè)性能,這對(duì)于 AI 云服務(wù)的穩(wěn)定性和安全性至關(guān)重要。
除了平臺(tái)本身的性能和效率提升,Spectrum-X 還提供 NVIDIA 加速軟件和軟件開(kāi)發(fā)套件(SDK),使開(kāi)發(fā)人員能夠構(gòu)建軟件定義的云原生 AI 應(yīng)用。這種端到端的功能交付,可以減少基于 transformer 的大規(guī)模生式 AI 模型的調(diào)試和運(yùn)行時(shí)間,助力網(wǎng)絡(luò)工程師、 AI 數(shù)據(jù)科學(xué)家和云服務(wù)商及時(shí)取得更好的結(jié)果,并更快做出決策。
對(duì)于 Spectrum-X 的突破,Gilad Shainer 指出,“如果沒(méi)有端到端的全棧式創(chuàng)新,Spectrum-X 的能力將無(wú)從談起!
不僅如此,NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)具有高度的通用性,確保了 Spectrum-X 能夠無(wú)縫集成到現(xiàn)有網(wǎng)絡(luò)基礎(chǔ)設(shè)施中,這不僅降低了部署成本和復(fù)雜性,也為未來(lái)在 AI 場(chǎng)景中大規(guī)模使用以太網(wǎng)解決方案奠定了基礎(chǔ),為 AI 網(wǎng)絡(luò)解決方案市場(chǎng)的爆發(fā)提供了動(dòng)力。
迅速崛起的 AI 以太網(wǎng)生態(tài)
考慮到基于以太網(wǎng)部署是生成式 AI 的趨勢(shì)之一,NVIDIA 將會(huì)持續(xù)推進(jìn)服務(wù)器節(jié)點(diǎn)內(nèi)外的網(wǎng)絡(luò)優(yōu)化和創(chuàng)新。
現(xiàn)有 AI 大模型系統(tǒng)的網(wǎng)絡(luò)互連技術(shù)主要分為兩類,一類是縱向擴(kuò)展(Scale-up),主要是一個(gè)計(jì)算節(jié)點(diǎn)內(nèi)部不同加速卡之間的互連或者一定量的加速卡組成一個(gè)超高性能的共享內(nèi)存的系統(tǒng);一類是橫向擴(kuò)展(Scale-out),主要指不同計(jì)算節(jié)點(diǎn)之間的互連或者多個(gè) Scale-up 組之間的互連。
NVIDIA 的縱向擴(kuò)展網(wǎng)絡(luò)目標(biāo)正是利用超快 NVLink 網(wǎng)絡(luò)使數(shù)個(gè)直至數(shù)百個(gè) GPU 之間實(shí)現(xiàn)算力和內(nèi)存的池化,成為一個(gè)“巨大的 GPU”。如果在此基礎(chǔ)上繼續(xù)擴(kuò)展到更大規(guī)模,就需要進(jìn)行橫向擴(kuò)展,可以采用 NVIDIA Quantum-X800 InfiniBand 和 Spectrum-X 以太網(wǎng)等高性能網(wǎng)絡(luò)。
“這種將 NVLink 與 InfiniBand 或 Spectrum-X 相結(jié)合的方法,對(duì)基于領(lǐng)先的 NVIDIA 計(jì)算架構(gòu)的系統(tǒng)部署、實(shí)現(xiàn)前所未有的 GPU 規(guī)模至關(guān)重要”,Gilad Shainer 強(qiáng)調(diào)。他以法國(guó)云服務(wù)提供商 Scaleway 為例,介紹了 NVIDIA 如何通過(guò)高性能 GPU 和網(wǎng)絡(luò)平臺(tái)幫助其應(yīng)對(duì)生成式 AI 的挑戰(zhàn)。
具體而言,Scaleway 將 HGX Hopper GPU 服務(wù)器納入其 GPU 集群陣容,利用大規(guī)模 GPU 集群的速度和效率來(lái)加速 AI 分布式工作負(fù)載;在橫向擴(kuò)展的AI網(wǎng)絡(luò)方面,Scaleway 部署了 Spectrum-X 網(wǎng)絡(luò)平臺(tái)。也正是通過(guò)采用 NVIDIA 的綜合解決方案,Scaleway 有效增強(qiáng)了 AI 計(jì)算能力并縮短了 AI 模型訓(xùn)練時(shí)間,同時(shí)加速了 AI 解決方案的開(kāi)發(fā)、部署和上市時(shí)間。
目前,Coreweave、GMO Internet Group、Lambda Labs、Scaleway、STPX Global 和 Yotta 等云服務(wù)提供商和企業(yè)正在采用 Spectrum-X 平臺(tái),為其 AI 基礎(chǔ)設(shè)施帶來(lái)更高的網(wǎng)絡(luò)性能。此外,NVIDIA OEM 合作伙伴正在提供基于 Spectrum-X 的全棧解決方案,ODM 合作伙伴正在將 BlueField-3 SuperNIC 集成到他們的系統(tǒng)中,并通過(guò) NVIDIA 的參考架構(gòu)提供 Spectrum-X 解決方案。
為了應(yīng)對(duì)云服務(wù)提供商在構(gòu)建 AI 云、使用加速計(jì)算技術(shù)和高性能網(wǎng)絡(luò)支持 AI 業(yè)務(wù)方面的挑戰(zhàn),NVIDIA 正在通過(guò)持續(xù)的生態(tài)系統(tǒng)建設(shè)來(lái)推動(dòng) Spectrum-X 平臺(tái)部署,支持更廣泛的生成式 AI 應(yīng)用落地。
GPU 之后,下一個(gè)“Zero-Billion-Dollar Markets”?
根據(jù) IDC 預(yù)測(cè),生成式 AI 數(shù)據(jù)中心以太網(wǎng)交換機(jī)市場(chǎng)將以 70% 的年復(fù)合增長(zhǎng)率增長(zhǎng),從 2023 年的 6.4 億美元增長(zhǎng)到 2028 年的 90.7 億美元。這一預(yù)測(cè)不僅進(jìn)一步證明了 Spectrum-X 平臺(tái)的前瞻性,也彰顯了它在未來(lái)市場(chǎng)中巨大的商業(yè)潛力。
如今,從金融到醫(yī)療,從工業(yè)到媒體娛樂(lè),各行業(yè)都在尋求通過(guò) AI 技術(shù)提升業(yè)務(wù)效率和創(chuàng)新能力。NVIDIA Spectrum-X 平臺(tái)不僅突破了傳統(tǒng)以太網(wǎng)的瓶頸,顯著提升了網(wǎng)絡(luò)性能和效率,更重要的是,它引領(lǐng)了行業(yè)對(duì)網(wǎng)絡(luò)技術(shù)的重新思考,確保以太網(wǎng)在生成式 AI 時(shí)代仍然是一種可靠且面向未來(lái)的技術(shù),為 AI 基礎(chǔ)設(shè)施的未來(lái)發(fā)展奠定基礎(chǔ)。
根據(jù) NVIDIA 今年的預(yù)測(cè),全球數(shù)據(jù)中心基礎(chǔ)設(shè)施的安裝基數(shù)在未來(lái)五年內(nèi)有望翻一番,這將帶來(lái)每年數(shù)千億美元的市場(chǎng)機(jī)會(huì)。
生成式 AI 帶來(lái)的深遠(yuǎn)影響才剛剛開(kāi)始,越來(lái)越多的行業(yè)在加入生成式 AI 的陣營(yíng)。正如開(kāi)篇所討論,NVIDIA 總是希望通過(guò)技術(shù)創(chuàng)新塑造市場(chǎng),Spectrum-X 已經(jīng)展現(xiàn)出了這一潛力,而這也將助推 NVIDIA 站上一個(gè)新的萬(wàn)億美元市場(chǎng)的臺(tái)階,引領(lǐng) AI 技術(shù)的又一次飛躍發(fā)展。