資訊
`
2025/5/26 10:39
AI+網(wǎng)絡(luò)云智能化升級(jí),重塑中興通訊AI Core算力基石
0
0

在ChatGPT掀起的人工智能AI)熱潮中,核心網(wǎng)正朝著智能化方向大步邁進(jìn),這一趨勢(shì)已不可阻擋。作為核心網(wǎng)的算力支撐,網(wǎng)絡(luò)云的智能化升級(jí)扮演著至關(guān)重要的角色。AI技術(shù)的飛速發(fā)展,不僅讓核心網(wǎng)變得更加高效智能,也對(duì)網(wǎng)絡(luò)云的算力、存儲(chǔ)和網(wǎng)絡(luò)架構(gòu)提出了新的挑戰(zhàn)與要求。

算力基石的智能化變革

AI訓(xùn)練和推理任務(wù)對(duì)算力要求極高,需要高性能、大規(guī)模并行、低時(shí)延互聯(lián)的支持。這促使網(wǎng)絡(luò)云從傳統(tǒng)的CPU計(jì)算模式向DPU、GPU、NPU等異構(gòu)計(jì)算模式轉(zhuǎn)變。異構(gòu)計(jì)算不僅支持算力資源的靈活調(diào)度、高性能并行存儲(chǔ)訪問以及高速無損網(wǎng)絡(luò)等技術(shù),還確保了資源供應(yīng)的穩(wěn)定高效。未來,網(wǎng)絡(luò)云算力基石的重要發(fā)展方向?qū)⑹请[藏底層GPU異構(gòu)資源的細(xì)節(jié),實(shí)現(xiàn)上層AI框架應(yīng)用與底層GPU算力類型的無縫對(duì)接。

在部署方式上,AI+網(wǎng)絡(luò)云實(shí)現(xiàn)了通用計(jì)算和智能計(jì)算資源的混合部署。這種部署方式既滿足了核心網(wǎng)網(wǎng)元應(yīng)用對(duì)通用和智能計(jì)算資源的雙重需求,又通過中心預(yù)訓(xùn)練、區(qū)域精調(diào)、邊緣推理的分布式部署和協(xié)同模式,構(gòu)建了與傳統(tǒng)通用計(jì)算網(wǎng)絡(luò)云相同的中心+區(qū)域+邊緣分布式架構(gòu)。這種架構(gòu)的智能化平滑升級(jí),完美匹配了核心網(wǎng)智能化的需求。

資源池化技術(shù)提升基礎(chǔ)設(shè)施效率

智算資源池化是打造高效、靈活、可擴(kuò)展智算中心的關(guān)鍵所在,主要包括算力池化和內(nèi)存池化兩大技術(shù)。

算力池化通過軟件定義硬件加速,將多家廠商的物理GPU資源整合成一個(gè)統(tǒng)一的虛擬GPU資源池。這一技術(shù)不僅實(shí)現(xiàn)了GPU資源的高效聚合、調(diào)度和釋放,還通過GPU虛擬化、多卡聚合、遠(yuǎn)程調(diào)用、動(dòng)態(tài)釋放等多種功能,確保了AI模型從開發(fā)到部署的全流程算力供給。算力池化技術(shù)顯著提高了GPU資源的利用率,降低了智算中心算力服務(wù)的成本,提升了整體效率。

內(nèi)存池化技術(shù)則通過構(gòu)建統(tǒng)一的內(nèi)存池,實(shí)現(xiàn)了對(duì)多個(gè)物理顯存、內(nèi)存設(shè)備及資源的統(tǒng)一調(diào)度、監(jiān)控和管理。這一技術(shù)不僅提升了系統(tǒng)的響應(yīng)速度和數(shù)據(jù)處理能力,還通過CXL等高速互聯(lián)協(xié)議,實(shí)現(xiàn)了CPU與加速器之間內(nèi)存的一致性訪問和共享,進(jìn)一步增強(qiáng)了系統(tǒng)性能。

智算存儲(chǔ)滿足高效訓(xùn)推任務(wù)需求

在大模型開發(fā)的各個(gè)環(huán)節(jié)中,存儲(chǔ)系統(tǒng)面臨著多元存儲(chǔ)、海量存儲(chǔ)、高并發(fā)性能等多重挑戰(zhàn)。智算存儲(chǔ)通過構(gòu)建統(tǒng)一的存儲(chǔ)架構(gòu),滿足了AI流水線不同階段的需求,提供了多元數(shù)據(jù)存儲(chǔ)能力和多種協(xié)議互通能力。同時(shí),借助硬件加速和軟件加速技術(shù),智算存儲(chǔ)大幅降低了數(shù)據(jù)訪問時(shí)延,提升了AI模型訓(xùn)練和推理的效率。

分布式智算存儲(chǔ)系統(tǒng)不僅支持分布式AI架構(gòu)的部署和運(yùn)行,還提供了跨節(jié)點(diǎn)的數(shù)據(jù)復(fù)制和備份功能,確保了數(shù)據(jù)的安全可靠。這一技術(shù)為AI創(chuàng)新和應(yīng)用落地提供了堅(jiān)實(shí)的基礎(chǔ)。

開放高通道無損網(wǎng)絡(luò)降低并行計(jì)算通信成本

隨著AI大模型參數(shù)規(guī)模的快速增長(zhǎng),并行計(jì)算技術(shù)成為加速模型訓(xùn)練的重要手段。然而,同步開銷和通信延遲問題也隨之凸顯。為了解決這一問題,業(yè)界開始探索超大規(guī)模智算集群中的高速互聯(lián)技術(shù)。

 在Scale-up網(wǎng)絡(luò)方面,通過基于交換拓?fù)涞腉PU高速開放互聯(lián)技術(shù),GPU之間的通信從傳統(tǒng)的點(diǎn)對(duì)點(diǎn)互聯(lián)模式轉(zhuǎn)向交換互聯(lián)模式。該技術(shù)顯著提升了單機(jī)的擴(kuò)展性和通信帶寬,突破單機(jī)8卡的限制,從而大幅提升單節(jié)點(diǎn)算力,解決TP受限問題。

服務(wù)器間互聯(lián)方面,超節(jié)點(diǎn)服務(wù)器Scale-Out互聯(lián)網(wǎng)絡(luò)可解決模型訓(xùn)練通信瓶頸,提升整體效率。RoCE作為主流技術(shù),是基于標(biāo)準(zhǔn)以太協(xié)議得開放解決方案,但各廠家有各自的增強(qiáng)方案,存在與網(wǎng)絡(luò)設(shè)備難解耦的問題。智算資源管理平臺(tái)與RoCE網(wǎng)絡(luò)管控協(xié)同,自動(dòng)化部署參數(shù)面網(wǎng)絡(luò),基于開放的RoCE協(xié)議進(jìn)行增強(qiáng),提供通用、開放、高性價(jià)比的高性能無損方案,是解決上述困難的有效解決思路。

算力原生構(gòu)建異構(gòu)算力解耦生態(tài)

隨著智算技術(shù)的迅猛發(fā)展和新興應(yīng)用的不斷涌現(xiàn),異構(gòu)開放環(huán)境成為未來發(fā)展的必然趨勢(shì)。算力原生架構(gòu)通過構(gòu)建統(tǒng)一標(biāo)準(zhǔn)的算力抽象模型和編程接口,實(shí)現(xiàn)了底層GPU異構(gòu)資源細(xì)節(jié)的隱藏和上層AI框架應(yīng)用與底層GPU類型的完全解耦。

算力原生架構(gòu)包括算力池化層和算力抽象層。算力池化層將各類硬件資源整合為一個(gè)統(tǒng)一的資源池,并通過構(gòu)建底層異構(gòu)硬件的統(tǒng)一抽象模型,實(shí)現(xiàn)了通過統(tǒng)一的度量值申請(qǐng)算力。算力抽象層則通過原生堆棧和接口,實(shí)現(xiàn)了對(duì)底層算力資源的感知和控制,以及原生程序的加載、解析和執(zhí)行。

分布式混池部署滿足核心網(wǎng)應(yīng)用需求

由于核心網(wǎng)網(wǎng)元對(duì)通用計(jì)算和智能計(jì)算資源都有需求,AI+網(wǎng)絡(luò)云實(shí)現(xiàn)了通用計(jì)算和智能計(jì)算資源的混合部署和分布式部署。這種部署方式不僅滿足了核心網(wǎng)網(wǎng)元應(yīng)用的綜合資源需求,還通過三級(jí)部署模式(樞紐大模型訓(xùn)練中心、區(qū)域訓(xùn)推融合資源池、邊緣訓(xùn)推一體機(jī)),靈活應(yīng)對(duì)了不同算力特征和部署位置的要求。

AI+網(wǎng)絡(luò)云的部署模式不僅提升了大規(guī)模集群的算力和能效,還提高了訓(xùn)練可靠性,滿足了基礎(chǔ)大模型預(yù)訓(xùn)練、行業(yè)大模型精調(diào)以及客戶場(chǎng)景大模型微調(diào)等多種需求。同時(shí),通過開放解耦能力和應(yīng)用生態(tài)的構(gòu)建,AI+網(wǎng)絡(luò)云為智算技術(shù)的多元化發(fā)展和應(yīng)用創(chuàng)新提供了強(qiáng)大支持。

免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

給作者點(diǎn)贊
0 VS 0
寫得不太好

C114簡(jiǎn)介     聯(lián)系我們     網(wǎng)站地圖

Copyright©1999-2025 c114 All Rights Reserved 滬ICP備12002291號(hào)-4

C114通信網(wǎng)版權(quán)所有 舉報(bào)電話:021-54451141 用戶注銷