近日,公司打造的業(yè)界首個多DC分布式、非對稱、超百公里協(xié)同訓練智算網絡在江蘇移動長三角云計算中心完成測試,在3DC總距離1000公里的場景下,跨域分布式訓練性能達到單智算中心訓練性能的95%以上,標志著多DC協(xié)同訓練技術落地驗證可行,并逐步向商用邁進。
算力是數字經濟時代的核心基礎設施,對促進經濟增長,推動科技進步以及滿足日益增長的數據處理需求具有至關重要的作用。隨著大模型訓練需求的持續(xù)增長,算力需求和單地域(DC)的算力不匹配問題日益突出,將多地域(DC)內的碎片算力集中起來提升算力利用率、訓練更大的模型成了多智算中心算間網絡發(fā)展的必經之路。
本次公司多DC分布式協(xié)同訓練試點測試,通過3DC及以上的場景互聯(lián)、從對稱組網到非對稱組網、從環(huán)形組網到鏈型組網,驗證了多DC之間非對稱算力協(xié)同訓練和百億、千億大模型在訓練過程中鏈路中斷對訓練性能的影響等,更加符合現(xiàn)網場景。試點測試結果表明,智算分布式協(xié)同訓練解決方案已經具備技術可行性。
本次試點,通過3DC參數面拉遠組網,以單DC最優(yōu)性能配置為基線,使用Llama2-70B、GPT3-175B作為輸入模型,對比了跨DC協(xié)同不同參數的性能變化,測試了分布式智算集群對大模型訓練性能影響的關鍵因素,支撐未來區(qū)域化智算集群商用可行性。該方案通過彈性靈活調度、廣域無損技術實現(xiàn)多個智算中心互聯(lián),滿足跨DC分布式智算集群靈活擴展,支撐客戶大模型訓練和按需部署。測試結果表明,三DC總距離千公里場景下,跨域分布式訓練性能下降5%以內。
未來,公司將攜手產業(yè)伙伴面向更大規(guī)模、更長距離的分布式智算網絡持續(xù)探索,堅持走出一條符合產業(yè)需求的智算發(fā)展之路,提高數字經濟時代整體產業(yè)的競爭力。