C114通信網  |  通信人家園

資訊
2024/9/18 10:28

NICC新型智算技術體系助力哈爾濱萬卡集群建成投產

C114通信網  

8月30日,中國移動智算中心(哈爾濱)建成投產,全球運營商最大單集群智算中心就此誕生,標志著中國移動在智算領域技術創(chuàng)新的重要突破。中國移動在此次項目中展現出強大的技術實力和創(chuàng)新能力,通過總體方案設計和一系列戰(zhàn)略性的創(chuàng)新技術,不僅為“AI+”行動提供了技術支持,更為國內智算產業(yè)的健康發(fā)展奠定了堅實的基礎。

在智算技術體系的不斷演進中,大模型的發(fā)展正成為推動人工智能前沿的關鍵力量。遵循Scaling Law的趨勢,大算力仍然是大模型創(chuàng)新落地的關鍵。大模型的參數量已經達到了萬億,甚至十萬億的量級,標志著大模型處理復雜任務的能力邁入了一個新的階段。為了將這一發(fā)展趨勢融入哈爾濱萬卡集群智算中心,中國移動研究院智算團隊在總體方案設計和技術創(chuàng)新方面提供了有力保障。

系統性總體設計,為智算中心保駕護航

在中國移動集團各部門的指導下,研究院智算團隊打造了標準統一、技術領先、軟硬協同、兼容開放的NICC新型智算技術體系,旨在為哈爾濱萬卡集群硬件資源的高效利用和軟件算法的優(yōu)化配置奠定技術基礎,支撐上層高質量的智算服務。

萬卡集群的構建,并非簡單的數量堆砌,從千卡到萬卡的跨越,是一個技術復雜度呈指數級上升的過程。在總體設計中,研究院智算團隊圍繞“新互聯、新算效、新存儲、新平臺、新節(jié)能”五大創(chuàng)新技術領域,打造了《中國移動NICC新型智算中心技術體系》,對智算技術進行了系統性重構和前瞻布局。

五大技術能力,助力哈爾濱萬卡集群創(chuàng)新突破

新互聯:整合GSE全調度以太網和OISA卡間互聯技術,構建高性能、低延遲的內外部互聯網絡,為大模型的升級迭代提供強有力的支持。在NICC新型智算技術體系中,新互聯技術是提升集群整體性能的關鍵,包括GSE全調度以太網和OISA卡間互聯兩大技術。

在智算服務器間的網絡構建方面,中國移動原創(chuàng)提出了全調度以太網技術(GSE),這一技術通過全調度轉發(fā)機制和集中管理,實現了大規(guī)模、高帶寬、低時延的網絡性能,為智算中心的高效運作提供了堅實的網絡基礎。GSE1.0在哈爾濱萬卡集群的規(guī)模商用,充分證明了這一架構在實際應用中的成熟與可靠性。

在智算服務器內部,GPU卡間的互聯技術是提升單臺服務器計算效率的核心因素。為應對傳統PCIe總線帶寬限制和私有協議性能瓶頸的雙重挑戰(zhàn),中國移動積極推動全向智感開放互聯(OISA)技術的創(chuàng)新,通過制定高速互聯協議等工作與GPU芯片、交換芯片、服務器制造商等合作伙伴建立緊密的合作關系,未來有望突破卡間互聯的技術瓶頸,共同推動國內AI芯片的升級迭代。

新算效:通過引入GPU扣卡模組和DPU,在提升計算密度的同時,確保了系統的可靠性和穩(wěn)定性,為數據處理提供極致效率。GPU扣卡模組方案有助于在有限的空間內容納更多的計算資源,提升計算密度。這種高密度部署對于提升萬卡集群整體的能效比和空間利用率至關重要。由于扣卡模組采用一體化的設計,減少了因插卡接觸不良或機械磨損導致的故障風險,從而提高了智算中心整體的穩(wěn)定性和維護的便捷性。

此外,數據處理單元DPU作為哈爾濱萬卡集群的關鍵芯片之一,專門設計用于提供網絡、存儲、安全和管理等基礎設施的虛擬化能力,它以極低的損耗、強大的數據處理能力、高度的靈活性和安全性,為哈爾濱萬卡集群的智算服務提供強有力的支持。面對DPU軟硬件標準化和高性能網絡的雙重挑戰(zhàn),研究院深度參與制定了DPU應用方案,滿足智算業(yè)務對“零丟包”、低時延、高吞吐網絡的要求,并通過DPU與RDMA(遠程直接內存訪問)技術的協同,進一步提升萬卡集群算效。

新存儲:多協議融合存儲技術的引入使得智算中心高效地處理海量非結構化數據,為人工智能應用提供了堅實的數據基石。在NICC新型智算技術體系中,引入多協議融合存儲技術,有效滿足了智算中心對海量非結構化數據存儲和多協議訪問的需求。面對當前融合存儲技術在語義轉換和安全策略上的挑戰(zhàn),研究院智算團隊與產業(yè)合作伙伴聯手,制定統一的存儲框架,重新設計了存儲底層數據結構,實現了多協議的原生融合,從而提高了數據訪問的靈活性和高效性。哈爾濱萬卡集群也成為業(yè)內首個大規(guī)模應用融合存儲的智算中心。

新平臺:算力池化加異構混訓技術,使能多廠商異構智算資源動態(tài)分配和靈活整合,顯著提升資源利用率。在NICC新型智算技術體系中,通過軟件定義的方式,實現了資源從集中調度到按需分配、動態(tài)伸縮和碎片聚合的多維度敏捷化管理。不僅能夠對異構智算資源進行有效的池化整合,根據實際業(yè)務需求進行精細化的資源分配,還能智能地感知業(yè)務負載的變化,實現資源在不同智算任務間的動態(tài)遷移,以及小顆粒度碎片的聚合管理,從而提升智算資源的利用率。

未來,大規(guī)模的智算集群可能部署來自不同廠家的異構算力資源。研究院將從計算策略拆解、性能預測分析、任務分發(fā)協同等技術方向入手,把訓練任務分解并在異構GPU上并行執(zhí)行,著力構建異構混訓能力,進而提升萬卡集群的服務能力。

新節(jié)能:液冷技術解決了高性能智算服務器的散熱問題,兌現了中國移動對綠色高效算力的承諾,為萬卡集群的可持續(xù)發(fā)展提供有力支持。在NICC新型智算技術體系中,新節(jié)能技術的應用對實現綠色高效算力至關重要。隨著AI芯片性能提升,功耗也隨之增加,對散熱系統提出了更高要求。傳統的風冷散熱已無法滿足高性能智算服務器的散熱需求,因此,液冷成為解決散熱問題和提高能效的首選技術,有效應對智算中心面臨的散熱壓力。在綜合考慮成本、可維護性、能源效率和產業(yè)成熟度后,冷板式和單相浸沒式液冷因其在多個方面的顯著優(yōu)勢成為當前主流解決方案。未來,中國移動將繼續(xù)推進優(yōu)化液冷環(huán)境下的運維和管理,推動產業(yè)生態(tài)成熟,從而提升智算中心的能效利用水平,確保超萬卡集群的可持續(xù)發(fā)展。

繼往開來,持續(xù)推進全棧技術的創(chuàng)新應用

NICC新型智算技術體系,以其“新互聯、新算效、新存儲、新平臺、新節(jié)能”五大領域的系統性重構,為哈爾濱萬卡集群注入了強大的技術動力,在我國萬卡集群的發(fā)展上起到關鍵作用。

當前,超萬卡集群、甚至超十萬卡集群正逐漸成為行業(yè)發(fā)展的新趨勢,中國移動率先發(fā)布《面向超萬卡集群的新型智算技術白皮書》,系統性闡述了超萬卡集群核心設計原則和關鍵技術。面向未來更大規(guī)模智算中心技術體系的構建,將不僅僅是技術層面的突破,更是對未來智算發(fā)展的深遠布局,中國移動將持續(xù)推動全調度以太網GSE 2.0、全向智感互聯OISA、芯合算力原生CAMA等關鍵技術的成熟落地,為大規(guī)模智算集群的落地實施做好技術準備。同時,我們也將與合作伙伴攜手并進,共克難關,推動國產智算設施實現新的突破,為智算產業(yè)的發(fā)展貢獻智慧和力量。

給作者點贊
0 VS 0
寫得不太好

  免責聲明:本文僅代表作者個人觀點,與C114通信網無關。其原創(chuàng)性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實相關內容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯系我們 | 網站地圖 | 手機版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網 版權所有 舉報電話:021-54451141