2024/7/1 13:13

開放解耦的先進智算網(wǎng)絡，是構建多元智算體系的關鍵

C114通信網(wǎng)

大模型時代對算力的需求永無止境，大規(guī)模智算中心建設如火如荼。隨著人工智能技術在各領域應用的快速發(fā)展，以及Sora、Gemini 1.5 Pro的面世，將進一步提高算力基礎設施的建設要求，激活算力技術的不斷創(chuàng)新和迭代升級。如今，算力市場已形成龐大的生態(tài)系統(tǒng)，涵蓋CPU、GPU、DPU、FPGA等專用芯片，各種形態(tài)的交換機、光模塊/線纜等連接介質(zhì)，以及各服務提供商交付的算力運營、算力調(diào)度、算法交易平臺等。對企業(yè)而言，如何博各家之所長，構建出多元融合的智算體系，是贏得未來競爭、享受智算紅利的關鍵所在。

異構算力網(wǎng)絡成為“必選項”

隨著智算熱度持續(xù)提升，以 AI為核心的算力需求激增。為實現(xiàn)計算效力最大化，多元異構算力將成為必然趨勢。異構算力體系可以充分發(fā)揮各種計算設備的優(yōu)勢，為用戶提高智算效率、降低采購成本、提升系統(tǒng)安全性。但在實際場景中，大多數(shù)客戶對于智算場景都是初次接觸，并不像傳統(tǒng)ICT基礎設施建設那樣可以輕車熟路的進行規(guī)劃、采購、部署。因此，解決異構組件間的互聯(lián)問題，是打通整體方案的重要前提，那么網(wǎng)絡是否做好了承擔重任的技術儲備呢？

用網(wǎng)絡打通異構算力的關鍵能力要求

通過數(shù)十年信息技術的發(fā)展，以太網(wǎng)具備拉通和兼容多種不同終端的能力已經(jīng)被充分驗證。面對智算的異構需求，以太網(wǎng)一方面需在網(wǎng)絡側(cè)解決端口密度、設備形態(tài)、通道標準、傳輸介質(zhì)的擴展性和兼容性，另一方面需在計算側(cè)篩選AI服務器網(wǎng)卡規(guī)格，為智算業(yè)務提供高性能算力，這種“多元可靠聯(lián)接”的能力正是打通異構算力所需要的。

在高性能網(wǎng)絡領域，無損以太網(wǎng)（RoCE）是一個快速普及且被大眾所認可的技術，其在成本、未來演進和生態(tài)豐富度上具備天然優(yōu)勢。當RoCE發(fā)展到智算網(wǎng)絡時代，連接非智能網(wǎng)卡、智能網(wǎng)卡、可編程智能網(wǎng)卡等不同能力的網(wǎng)卡時，以“場景化網(wǎng)絡調(diào)優(yōu)”的模式解決Hash極化問題，降低網(wǎng)絡擁堵風險，成為智算網(wǎng)絡構建無損能力的關鍵。

此外，智算網(wǎng)絡如果脫離了與算力的聯(lián)動，那就是孤立、被動的，為確保智算業(yè)務有序的平穩(wěn)發(fā)展，網(wǎng)絡必須與算力調(diào)度平臺聯(lián)動起來。而國內(nèi)大多算力廠商沒有配套的網(wǎng)絡設備和平臺，因此，想用網(wǎng)絡打通異構算力，則必須具備與多家廠商的CCL（集合通信庫）的兼容對接能力，將算力需求轉(zhuǎn)譯為網(wǎng)絡配置，也就是所謂的“異構算網(wǎng)聯(lián)動”。

綜上所述，要打通異構算力之間的高速網(wǎng)絡通道，必須具備“多元可靠聯(lián)接、場景化網(wǎng)絡調(diào)優(yōu)、異構算網(wǎng)聯(lián)動”三大關鍵能力，這也是算力產(chǎn)業(yè)實現(xiàn)創(chuàng)新發(fā)展的重中之重。

聚焦異構算力組網(wǎng)痛點，新華三提出開放解耦的智算網(wǎng)絡

面對網(wǎng)算之間互相協(xié)同推進的發(fā)展態(tài)勢，新華三集團在“多元可靠聯(lián)接、場景化網(wǎng)絡調(diào)優(yōu)、異構算網(wǎng)聯(lián)動”等方面加速突破，積極探索打通異構算力的開放網(wǎng)絡。

多元可靠聯(lián)接

新華三集團進行了豐富的智算產(chǎn)品布局，提供了開放性、兼容性、擴展性、穩(wěn)定性極強的網(wǎng)絡環(huán)境和端到端異構互聯(lián)保障，全方位滿足客戶需求。

新華三長期以來都致力于推動國內(nèi)高速網(wǎng)絡技術的發(fā)展，在200G/400G/800G產(chǎn)品的面世時間上都處于國內(nèi)乃至業(yè)界領先地位。在智算場景下，新華三的產(chǎn)品布局也是業(yè)內(nèi)最豐富的。從產(chǎn)品形態(tài)上看，新華三可提供從100G到800G多種形態(tài)的框式、盒式產(chǎn)品，端口密度覆蓋完善，能夠滿足不同規(guī)模智算客戶的組網(wǎng)需求。從1K GPU到512K GPU的場景下，客戶可以平滑的選用新華三的單框、盒盒、框盒、三層盒盒等不同的組網(wǎng)架構，實現(xiàn)成本與規(guī)模的最優(yōu)匹配。

從綠色節(jié)能角度來看，新華三產(chǎn)品可同時支持LPO和液冷技術，LPO技術是指通過設備內(nèi)部的信號穩(wěn)定器件和設計，來替代光模塊中的DSP芯片，降低DSP帶來的功耗和時延，亦可規(guī)避DSP芯片的供應風險。而液冷技術可將關鍵芯片的大量發(fā)熱通過液冷帶出設備，配套的風扇僅用于其他非關鍵器件的散熱，轉(zhuǎn)速和耗電都將大幅減少。

此外，新華三擁有業(yè)界最開放的生態(tài)合作環(huán)境，各條產(chǎn)品線都采用了多家合作伙伴的交付件，包括GPU、網(wǎng)卡、光模塊、交換芯片，由此也為新華三帶來了天然優(yōu)勢——能夠代替客戶驗證異構算力環(huán)境的兼容性。對客戶而言，選擇異構方案最大的阻力來源于實施效果，能否互聯(lián)互通，以及互通后的性能、可靠性是否能支撐業(yè)務需求，是實際存在的風險。而新華三的能力就是利用自身的生態(tài)優(yōu)勢，為客戶提供端到端的異構互聯(lián)保障，確�？蛻魪男氯A三驗證過的交付件庫中選擇GPU、網(wǎng)卡、光模塊、交換機，即可在實際場景中放心互聯(lián)。

為此，新華三還設計了一套《智算網(wǎng)絡異構連通專項測試》標準，專門用于驗證不同智算組件之間的互通性，豐富的測試例覆蓋了如下驗證能力。

場景化網(wǎng)絡調(diào)優(yōu)

在“場景化網(wǎng)絡調(diào)優(yōu)”方面，新華三集團通過端口對稱Hash技術LBN、動態(tài)負載均衡技術DLB、鏈路噴灑技術SprayLink、全局負載均衡技術FGLB等技術滿足了客戶不同智算場景的技術需求，實現(xiàn)了數(shù)據(jù)中心超高帶寬利用率的無阻塞轉(zhuǎn)發(fā)。

以“端口對稱Hash技術LBN”為例，對于智算網(wǎng)絡中的每一臺設備而言，網(wǎng)絡調(diào)優(yōu)的最終目標，就是下行端口接收的流量，能夠有確保的通過上行帶寬資源轉(zhuǎn)發(fā)出去。實現(xiàn)這個目標有一個最簡單的方式，就是為每一個下行口指定一個同速率的上行口，其他下行口的流量不能從這個上行口去轉(zhuǎn)發(fā)，形成獨占的上行資源，這個技術即為LBN。

當網(wǎng)絡和業(yè)務規(guī)模超出LBN可覆蓋的能力時，需要通過“引入新變量”和“分割單一流”解決Hash極化問題。所謂“引入新變量”，即為在Hash過程中引入出端口負載情況（隊列長度），提升隊列更短的出端口優(yōu)先級，就可以將流更多的分攤到空閑端口上；所謂“分割單一流”，即為在出端口Hash時，針對子流做Hash，引入當前出端口的負載，便可以將不同時間段到達的子流Hash到當前最空閑的端口發(fā)送。

當一條大流連續(xù)到達交換機的時候，“鏈路噴灑技術SprayLink”的價值便得到了彰顯。 SprayLink通過實時監(jiān)控LACP/ECMP中各物理鏈路的帶寬利用率、出口隊列、緩存占用、傳輸時延等精細化數(shù)據(jù)，對大流做到基于Per-Packet（逐包）方式的動態(tài)負載均衡，將每個數(shù)據(jù)包分配到當時資源最優(yōu)的鏈路上。通過實測，采用SprayLink可以使多條鏈路的總帶寬利用率達到95%以上，比傳統(tǒng)Hash方法提升明顯。但是SprayLink存在流量到達接收端的亂序問題，需要接收端的網(wǎng)卡支持亂序重排技術才能匹配。

上述幾種負載均衡技術，看似已完整的覆蓋了所有場景，但其只能根據(jù)設備本地的負載情況進行選擇，對于發(fā)出的數(shù)據(jù)在剩余路徑上的傳輸質(zhì)量，則沒有判斷依據(jù)。而新華三的全局負載均衡技術FGLB，能夠讓每臺設備都能夠擁有全局視角，了解自己出接口的下一跳，乃至下一跳到再下一跳的鏈路負載情況，來輔助決策本地的負載結果。

新華三認為，目前最優(yōu)的負載均衡技術是DDC（Disaggregated Distributed Chassis分布式解耦機框）。它能將傳統(tǒng)框式交換機的主控、網(wǎng)板、線卡分解為分布式的模塊化部件，以提高網(wǎng)絡的靈活性、可擴展性和性能。DDC基于信元交換，任何協(xié)議的流量在進入DDC架構時都可被切成等分大小的信元，在內(nèi)部多條鏈路上負載，完全解決了Hash極化問題，可以說是100%的負載分擔。在流量發(fā)出時，信元又將會被重組為原始數(shù)據(jù)。信元交換無視數(shù)據(jù)協(xié)議，不會產(chǎn)生亂序，對GPU和網(wǎng)卡都是天然解耦的。此外，DDC架構擴展性強，傳統(tǒng)框式設備無論如何設計，其容納的端口都是有限的。而將其拆解之后，通過橫向擴展可以支持數(shù)千個200G/400G端口，這是框式設備無法實現(xiàn)的，也可以大幅降低部署難度和功耗。新華三DDC產(chǎn)品擁有獨立的高性能控制平面，可以實現(xiàn)網(wǎng)元失效后us級別的收斂，以及網(wǎng)元上線的快速即插即用，可靠性和靈活度領先業(yè)界。

眾所周知，實現(xiàn)全場景網(wǎng)絡調(diào)優(yōu)是企業(yè)提升鏈路效能的關鍵，新華三依托其領先的負載均衡技術，通過豐富的現(xiàn)網(wǎng)實踐，總結出了以下場景化匹配應用建議。

異構算網(wǎng)聯(lián)動

在“異構算網(wǎng)聯(lián)動”方面，新華三在“調(diào)整網(wǎng)卡QP能力與網(wǎng)絡聯(lián)動”、“算網(wǎng)主動選路與路徑仿真技術”兩大方面進行了實踐探索。

關于“調(diào)整網(wǎng)卡QP能力與網(wǎng)絡聯(lián)動”，新華三通過識別不同網(wǎng)卡的樣本能力（QP規(guī)格），結合當前網(wǎng)絡可用路徑數(shù)量和帶寬的資源，以及自研的算法，提供了一種端到端的負載優(yōu)化機制。當訓練任務開始時，兩張網(wǎng)卡之間建立數(shù)據(jù)連接，在AI服務器內(nèi)部的agent就會將報文特征等信息傳遞到控制器，同時控制器根據(jù)當前網(wǎng)絡的資源，設置網(wǎng)卡的QP規(guī)格，為一對Peer建立多對QP，解決路徑中設備Hash不均問題。

關于“算網(wǎng)主動選路與路徑仿真技術”，新華三通過算網(wǎng)的協(xié)同機制，實現(xiàn)了一種主動選路的功能。當一個CCL發(fā)起新的互通請求時，新華三的網(wǎng)絡分析器會收集當前所有鏈路流量負載情況，并根據(jù)自研的智能選路算法，選出對于該互通連接最高效的路徑，將配置下發(fā)到交換機，實現(xiàn)按策略的轉(zhuǎn)發(fā)，避免傳統(tǒng)路由協(xié)議選路條件粗放的問題。同時新華三還提供路徑仿真能力，對于主動選路效果，可以在分析器內(nèi)部通過NFV的形式進行真實流量模擬，來驗證策略下發(fā)效果，驗證后再下發(fā)到真實設備上。

面向未來，在算力爆發(fā)的時代，新華三集團將始終秉承開放共贏的理念，通過多元可靠聯(lián)接、場景化網(wǎng)絡調(diào)優(yōu)、異構算網(wǎng)聯(lián)動三大核心能力，解決客戶在異構算力組網(wǎng)過程中遇到的各種問題，與生態(tài)合作伙伴、行業(yè)客戶一起，打造繁榮、開放的智算生態(tài)體系。

給作者點贊

0 VS 0

寫得不太好

　　免責聲明：本文僅代表作者個人觀點，與C114通信網(wǎng)無關。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實，對本文以及其中全部或者部分內(nèi)容、文字的真實性、完整性、及時性本站不作任何保證或承諾，請讀者僅作參考，并請自行核實相關內(nèi)容。

相關鏈接

網(wǎng)絡 FPGA 交換機融合 ICT

歌華有線、新華三入圍！中國廣電國家文化大數(shù)據(jù)服務平臺應用支撐項目候選人公示
DVBCN中廣5G 12-19
中國電信2024年城域云網(wǎng)設備集采：華為、中興、新華三全標包入圍
C114通信網(wǎng) 水易12-17
中國電信2024年核心路由器集采：華為、中興、新華三中標
C114通信網(wǎng) 水易12-13
新華三李建濤：全棧智算能力賦能，攜手中國電信共促AI化為現(xiàn)實生產(chǎn)力
C114通信網(wǎng) 水易12-10

開放解耦的先進智算網(wǎng)絡，是構建多元智算體系的關鍵

開放解耦的先進智算網(wǎng)絡，是構建多元智算體系的關鍵