C114通信網  |  通信人家園

 
2024/12/16 10:03

江蘇移動完成業(yè)界首個跨多DC智算無損組網測試,落地驗證分布式智算協(xié)同訓練技術可行

C114通信網  

近日,公司打造的業(yè)界首個多DC分布式、非對稱、超百公里協(xié)同訓練智算網絡在江蘇移動長三角云計算中心完成測試,在3DC總距離1000公里的場景下,跨域分布式訓練性能達到單智算中心訓練性能的95%以上,標志著多DC協(xié)同訓練技術落地驗證可行,并逐步向商用邁進。

算力是數字經濟時代的核心基礎設施,對促進經濟增長,推動科技進步以及滿足日益增長的數據處理需求具有至關重要的作用。隨著大模型訓練需求的持續(xù)增長,算力需求和單地域(DC)的算力不匹配問題日益突出,將多地域(DC)內的碎片算力集中起來提升算力利用率、訓練更大的模型成了多智算中心算間網絡發(fā)展的必經之路。

圖片1.png

本次公司多DC分布式協(xié)同訓練試點測試,通過3DC及以上的場景互聯(lián)、從對稱組網到非對稱組網、從環(huán)形組網到鏈型組網,驗證了多DC之間非對稱算力協(xié)同訓練和百億、千億大模型在訓練過程中鏈路中斷對訓練性能的影響等,更加符合現(xiàn)網場景。試點測試結果表明,智算分布式協(xié)同訓練解決方案已經具備技術可行性。

本次試點,通過3DC參數面拉遠組網,以單DC最優(yōu)性能配置為基線,使用Llama2-70B、GPT3-175B作為輸入模型,對比了跨DC協(xié)同不同參數的性能變化,測試了分布式智算集群對大模型訓練性能影響的關鍵因素,支撐未來區(qū)域化智算集群商用可行性。該方案通過彈性靈活調度、廣域無損技術實現(xiàn)多個智算中心互聯(lián),滿足跨DC分布式智算集群靈活擴展,支撐客戶大模型訓練和按需部署。測試結果表明,三DC總距離千公里場景下,跨域分布式訓練性能下降5%以內。

未來,公司將攜手產業(yè)伙伴面向更大規(guī)模、更長距離的分布式智算網絡持續(xù)探索,堅持走出一條符合產業(yè)需求的智算發(fā)展之路,提高數字經濟時代整體產業(yè)的競爭力。

給作者點贊
0 VS 0
寫得不太好

C114中國通信網版權說明:凡注明來源為“C114通信網”的文章皆屬C114版權所有,除與C114簽署內容授權協(xié)議的單位外,其他單位未經允許禁止轉載、摘編,違者必究。如需使用,請聯(lián)系021-54451141(汪先生)。其中編譯類僅出于傳遞更多信息之目的,系C114對海外相關站點最新信息的翻譯稿,僅供參考,不代表證實其描述或贊同其觀點,投資者據此操作,風險自擔;如有翻譯質量問題請指正。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網站地圖 | 手機版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網 版權所有 舉報電話:021-54451141