12月23日,由中國信息通信研究院主辦的智算IP廣域網(wǎng)產(chǎn)業(yè)交流會在北京成功舉辦。本次交流會以“打造超彈性無損智算IP廣域網(wǎng),加速邁向智能時代”為主題,企業(yè)、科研機構積極響應。其中,中國移動通信集團重慶有限公司計劃部劉輕舟副總經(jīng)理基于重慶移動打造的“存算拉遠”智算創(chuàng)新項目做了成果分享。
劉輕舟介紹,隨著新能源智能車企的快速發(fā)展,海量樣本數(shù)據(jù)大模型訓練成為車企發(fā)展的必需業(yè)務場景,也是智能車企發(fā)展的關鍵。重慶移動聚焦車企普遍關注的先傳后訓方式導致算力資源利用率低、敏感數(shù)據(jù)出園區(qū)導致安全擔憂等痛點,攜手華為推出了智算互聯(lián)網(wǎng)絡解決方案。該方案基于新一代路由器,創(chuàng)新性采用彈性存算拉遠架構,并結合廣域RDMA無損網(wǎng)絡技術,兼顧了數(shù)據(jù)安全、海量數(shù)據(jù)傳輸效率及算效提升的訴求。
劉輕舟指出,考慮到業(yè)務發(fā)展初期,運營商的網(wǎng)絡建設成本及客戶大模型計算成本,重慶移動首創(chuàng)提出了廣域RDMA+G-SRv6的無損網(wǎng)絡融合方案,采用RDMA、深度負載分擔、智能流調(diào)度和逐流反壓等關鍵技術,同時利用客戶側(cè)已有的標準存儲,確?蛻魯(shù)據(jù)在智算中心不落盤,通過新一代智算設備互聯(lián)實現(xiàn)網(wǎng)存協(xié)同。該方案面向客戶提供確定性、彈性、可信智算互聯(lián)專線及智算算力租賃服務。
存算拉遠架構創(chuàng)新:存算拉遠架構將原始數(shù)據(jù)留存在客戶本地,避免傳輸過程數(shù)據(jù)泄露對企業(yè)造成的損失。在智算中心計算時,采用邊傳邊訓的方式,極大降低了算卡空閑率,縮短訓練整體總耗時時間,有利于智算算力服務的普及和推廣。
智能調(diào)度技術創(chuàng)新:智算互聯(lián)網(wǎng)絡解決方案通過帶寬有效利用率提升及時延、丟包的優(yōu)化來確保高吞吐率,降低計算服務器的等待時間,提升智算中心的整體算效。同時,還基于多種IPv6+技術,實現(xiàn)不同網(wǎng)絡路徑的負載均衡精度控制在5%以內(nèi),帶寬利用率提升到90%以上,顯著提高了網(wǎng)絡傳輸效果。
通過一系列的技術創(chuàng)新,重慶移動存算拉遠項目在超長距離網(wǎng)絡中,訓練效率提升近1倍,月度迭代訓練任務數(shù)提升近70%。極大解決了算力空閑等待時間長的問題,大幅降低企業(yè)使用大模型訓練的成本,為高效算力服務的推廣,加速普惠算力服務千行百業(yè)貢獻了重要力量。
展望未來,重慶移動將持續(xù)攜手產(chǎn)業(yè)伙伴,打通計算、網(wǎng)絡、安全等產(chǎn)業(yè),基于算存模式,推動關鍵技術的深度融合與創(chuàng)新,不斷打造更高質(zhì)量的智算專線,實現(xiàn)跨通信、計算為一體的協(xié)同運作,提高整體產(chǎn)業(yè)的競爭力。