C114通信網  |  通信人家園

資訊
2024/9/26 15:47

算網協(xié)同優(yōu)化,構建高效高穩(wěn)超萬卡智算集群

C114通信網  

隨著AI技術的突破性進展,大模型與智能算力的緊密結合正加速推動各行各業(yè)從“+AI”向“AI+”轉型邁進,全面重構經濟社會的生產流程和生活方式。在通用人工智能AGI目標和Scaling Law的驅動下,大模型快速迭代演進,參數(shù)規(guī)模從百億、千億向萬億、十萬億級別不斷躍進。GPT-4擁有1.8萬億參數(shù),完成一次訓練需要在2萬多張A100上訓練大約90天,萬卡智算集群已成為支撐主流大模型訓練的基礎設施標配。國際國內頭部互聯(lián)網企業(yè)、通信運營商、大型AI科創(chuàng)企業(yè)等均已建成或規(guī)劃建設萬卡和超萬卡智算集群,以應對超大模型訓練對智能算力資源的巨量需求。

智算集群規(guī)模的線性提升無法直接帶來集群有效算力的線性提升,如何提升集群線性率是衡量超萬卡集群性能的重要指標。集群線性率或有效算力有多個影響因素,主要涉及單張GPU卡的性能、GPU卡間的互聯(lián)帶寬和互聯(lián)拓撲、集群網絡互聯(lián)方案、以及集群的穩(wěn)定性和故障恢復能力等方面。中興通訊全棧智算解決方案通過從節(jié)點算效、集群規(guī)模及并行效率、集群穩(wěn)定性這幾個方面進行深度優(yōu)化,全面提升集群算效和可靠性,助力客戶打造高效、高穩(wěn)的超萬卡智算集群。

構建超節(jié)點,突破傳統(tǒng)單機8卡算力限制

大模型并行訓練時,PP(流水線并行)跨節(jié)點會導致大量資源空泡,GPU利用率低,增加節(jié)點內GPU數(shù)量,提升TP(張量并行)規(guī)模,可有效抑制空泡。MoE架構的盛行也帶來了大量All-to-All通信,帶來大量機間通信流量,通信時延劇增,導致大量GPU閑置。因此,為了滿足超萬億參數(shù)模型的高效訓練需求,超節(jié)點意義重大,超節(jié)點內GPU規(guī)模突破傳統(tǒng)單機8卡的限制,互聯(lián)效率高,可有效減少PP帶來的資源空泡和MoE專家并行帶來的大量GPU閑置,實現(xiàn)性能躍遷。

鑒于大部分芯片廠家的機內GPU互聯(lián)采用Full mesh架構,從而帶來算力規(guī)模和擴展能力的限制,超節(jié)點的構建需要重點考慮節(jié)點內算力的可擴展性、互聯(lián)協(xié)議的開放性,以及互聯(lián)帶寬容量等方面。中興通訊在業(yè)界率先提出了OLink開放交換互聯(lián)標準,并自研了大容量交換芯片,實現(xiàn)節(jié)點內GPU之間高速交換互聯(lián),有效提升節(jié)點內GPU規(guī)模和互聯(lián)帶寬。據(jù)悉,中興通訊將推出基于OLink標準的新旗艦AI服務器,機內16個GPU通過自研交換芯片互聯(lián),未來還會推出算力規(guī)模更大的超節(jié)點,實現(xiàn)GPU持續(xù)Scale up。

擴大集群規(guī)模,提升節(jié)點間互聯(lián)效率

超萬卡集群網絡包括參數(shù)面、樣本面、業(yè)務面和管理面網絡。其中,參數(shù)面網絡用于AI算力節(jié)點之間的參數(shù)交換,樣本面網絡用于AI算力節(jié)點與存儲節(jié)點之間的數(shù)據(jù)訪存,參數(shù)面和樣本面均需要具備高帶寬、低時延、零丟包的無損網絡能力。面向不同的AI算力節(jié)點和存儲節(jié)點規(guī)模,無損網絡的構建通常采用Fat-Tree組網,交換機上下行帶寬1:1無收斂,智算集群規(guī)模越大,對交換機的交換容量、端口數(shù)的要求就越高。中興通訊推出自研的盒式交換機和框式交換機以及多種容量的交換芯片,支持各個型號的交換機產品靈活組網搭配,可搭建百卡、千卡、超萬卡任意規(guī)模的智算中心網絡,靈活滿足100GE、200GE、400GE組網需求。

在節(jié)點間互聯(lián)效率方面,中興通訊推出創(chuàng)新的智能全局負載均衡方案(IGLB),從整網視角集中計算最優(yōu)轉發(fā)路徑,把網絡負載均衡效率調至最佳;同時基于端網協(xié)同擁塞控制技術(ENCC),大幅降低流量擁塞調整時間,有效提升了大規(guī)模智算集群的通信互聯(lián)效率。

訓前預防,訓中監(jiān)控,確保智算集群高穩(wěn)運行

超萬卡智算集群中GPU卡、光模塊等器件數(shù)量成千上萬,器件運行前的失效概率、運行中的故障概率變高,故障定位難度大,集群的穩(wěn)定可靠直接關系到訓練作業(yè)的連續(xù)性和執(zhí)行效率。如果頻繁出現(xiàn)故障或故障處理不及時都會導致模型訓練受阻、作業(yè)進度延遲,從而造成資源浪費和成本增加。超萬卡智算集群的運維以訓練作業(yè)保障為核心,訓前啟動集中化自動化的健康檢查,包括模型壓測、集合通信檢測、硬件模塊快檢等,確保上線資源0失效;訓中全域監(jiān)控,支持故障預警、智能分析定位,故障恢復后支持從斷點處快速恢復訓練,全方位保障訓練作業(yè)長穩(wěn)可靠運行。

中興通訊在智算領域砥礪前行,持續(xù)深化技術研發(fā)和探索孵化創(chuàng)新應用,助力運營商和行業(yè)用戶打造業(yè)界領先的AI算力底座和智慧平臺,賦能全社會產業(yè)AI+轉型升級。

給作者點贊
0 VS 0
寫得不太好

  免責聲明:本文僅代表作者個人觀點,與C114通信網無關。其原創(chuàng)性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網站地圖 | 手機版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網 版權所有 舉報電話:021-54451141