C114訊 1月16日消息(顏翊)AI時代已經來臨。大模型等新興AI應用需求海量的算力支撐,一座座智算中心拔地而起,規(guī)模龐大的萬卡集群逐漸投入商用。如何更好地實現智算中心互聯,服務AI應用創(chuàng)新發(fā)展,業(yè)界做了大量研究工作。
1月16日,作為“2025中國光通信高質量發(fā)展論壇”的開篇之作,“智算中心互聯:算網協(xié)同,構筑智算互聯新底座”線上研討會順利召開,邀約產業(yè)鏈專家代表,圍繞智算中心間跨地域、跨層級、跨主體、高可靠的算力協(xié)同與調度,以及智算中心互聯關鍵技術等話題展開了深入探討。
中國聯通研究院副院長、首席科學家唐雄燕應邀作了題為《構建算力智聯網AINet,推進算網協(xié)同》的主題報告。在報告中,唐雄燕結合中國聯通正在建設的算力智聯網AINet,探討了對于智算中心互聯網的認識,并介紹中國聯通開展的相關工作。
打造算力智聯網AINet
智能計算的發(fā)展對帶寬和網絡質量提出了越來越高的要求,主要體現在高通量、低時延、高可靠三個方面。為了更好地支撐智算互聯的需要,2024年,中國聯通正式發(fā)布算力智聯網AINet,通過IP+光融合打造新質運力,實現算力服務與網絡服務協(xié)同,構建算力互聯網的新底座。
唐雄燕指出,AINet具備三個重要特征,即“三高”核心能力,分別是高通量、高性能、高智能。其中,高通量主要是針對數據傳輸管道,構建高通量廣域網能力,提升承載計算任務的數量,保障海量計算任務高效率、差異化、分布式流通,使能算的多;高性能是指要確保智算中心網絡實現零丟包、無阻塞、低時延運營,保障算得快;高智能則是通過算網大腦實現算力和運力之間協(xié)同編排和調度,提供算力與連接的融合服務,促進算得優(yōu)。
對于廣域網來說,主要是通過IP+光技術形成高通量能力,即打造大帶寬、低時延、無損的高通量廣域承載網絡,提供高效靈活算力數據傳輸服務。當前,主要依靠建設超大容量、端到端高速直達的400G全光網絡,實現高速可靠的海量數據傳送。
在智算中心網絡中,對網絡性能要求非常高,需使用IB、RoCE等無損電交換技術,同時逐步引入光交換,實現光電融合。此外,智能管控也非常關鍵,中國聯通研發(fā)了智算中心管控平臺“智馭”,能夠實現算網、光電一體化管理以及智算流量端到端優(yōu)化調度,并能實時呈現網絡狀態(tài)。
在算網大腦層面,主要是實現算力和連接的協(xié)同編排和智能調度,提供“算力+連接”的算網融合服務。
光網絡演進支撐智算網絡發(fā)展
唐雄燕表示,光網絡是構建AINet“三高”能力的關鍵底座。AINet部署了雙平面立體組網的400G ROADM全光智算網絡,同時部署了智算網關,實現網絡與智算的高效連接。
對于光網絡未來如何更好支撐智算網絡,他表示,過去幾十年來,光網絡的演進方向一直朝著提高速率和增強智能兩個方向發(fā)展。
在智算廣域網方面,光網絡的速率和容量快速增長是演進特征。骨干光網絡已邁入單波超400G速率時代,并朝著800G方向發(fā)展。容量提升上,已經實現了C6T+L6T寬頻譜系統(tǒng),未來還可通過繼續(xù)擴展頻譜進一步提升容量。同時,AINet是基于G.654.E新型光纖,可更好支撐400G和800G超高速傳輸要求。
在智算中心內部,光交換扮演著越來越重要的角色。智算中心內互聯架構正在從電交換向光電混合/光交換演進,可以充分發(fā)揮光連接和光交換的大帶寬低時延低功耗等優(yōu)勢。LightCounting數據顯示,光交換機OCS出貨量2023年為1萬臺,預計2029年將超過5萬臺。同時,智算中心內新型光模塊不斷涌現,LPO、CPO等技術未來發(fā)展前景良好,尤其是在1.6T之后,光電共封裝對于降低功耗、降低成本重要性凸顯。
另外,在光纖技術方面,新型光纖空芯光纖近年得到快速發(fā)展。其具有更低時延、更低損耗和更小非線性,尤其是時延能降低30%,對于智算互聯網來說有著非常重要的價值。例如,微軟去年就宣布要部署15000公里空芯光纖。我國也在積極開展空芯光纖相關實驗驗證工作。不過,空芯光纖的應用仍然面臨著多方面挑戰(zhàn)。
針對三大典型場景開展試驗
唐雄燕介紹,針對入算、訓練、推理這三大典型智算業(yè)務場景,去年中國聯通開展了一些重要實驗。
一是海量數據入算場景,主要提供任務式數據傳遞服務,通過構建高通量數據網來增大有效帶寬、提高單位帶寬下數據傳輸通量,解決低帶寬等不起、高帶寬用不起等問題。去年聯通開展了從上海到寧夏3000公里長距RDMA流量傳輸驗證,通過無損流控技術以及端網協(xié)同擁塞控制等技術,端口帶寬利用率從20%提升到90%。
二是存算分離拉遠訓練場景,政務、醫(yī)療、金融等行業(yè)租用智算中心算力進行大模型訓練,因涉及敏感信息,為最大限度地防止數據泄露,需要隱私訓練數據“不落盤”,進行存算分離拉遠訓練。為此,中國聯通完成業(yè)界首例跨地市(杭州-金華)、存算分離200 km 的AI大模型拉遠訓練,即杭州存儲、金華計算,通過廣域RDMA無損高吞吐傳輸,保障存儲與計算跨廣域模型高效訓練,實測訓練效率大于95%(與本地數據本地訓的效率相比損失5%)。
三是跨DC協(xié)同訓練場景,超大規(guī)模的訓練和算力租賃業(yè)務帶來智算新需求,需要進行跨DC協(xié)同訓練,這也是技術挑戰(zhàn)最大的應用場景,由于跨DC涉及時延問題,往往難以保障參數面拉遠下的等效算力。為驗證這個場景,在中國聯通臨港智算中心采用了光傳送網OTN技術,成功完成AI大模型300公里分布式協(xié)同訓練技術驗證,充分驗證了跨DC協(xié)同訓練技術的商用可行性,實現了300公里跨域協(xié)同訓練保持等效算力95%以上,為AI大模型訓練模式提供了全新的解決方案。
最后,唐雄燕指出,中國聯通通過打造算力智聯網AINet,可為人工智能發(fā)展提供多樣性服務,包括高效入算、靈活聯算、算力互聯、數據快遞、數據高鐵、算網一體服務等服務形式,更好地賦能人工智能產業(yè)發(fā)展。