7月19日,在2025中國聯(lián)通合作伙伴大會期間,中國聯(lián)通研究院聯(lián)合上海人工智能實驗室等合作伙伴,正式發(fā)布了全球最長距離大模型異構(gòu)混訓(xùn)試驗成果,向業(yè)界展現(xiàn)了中國聯(lián)通在智算網(wǎng)絡(luò)關(guān)鍵技術(shù)領(lǐng)域的里程碑,為智算產(chǎn)業(yè)的高質(zhì)量發(fā)展注入新范式。
隨著人工智能技術(shù)的高速發(fā)展和大模型時代的加速來臨,模型訓(xùn)練對算力基礎(chǔ)設(shè)施的高吞吐、低時延、高性能提出了更高要求。然而,當(dāng)前算力資源呈現(xiàn)出異構(gòu)化和多中心化的格局,面臨著跨域資源互聯(lián)互通機制不健全、長距離傳輸存在帶寬與時延瓶頸、異構(gòu)資源統(tǒng)一調(diào)度與高效融合能力有限等挑戰(zhàn)。
在此背景下,中國聯(lián)通聯(lián)合上海人工智能實驗室,阿里云、浪潮、基流科技、加佳科技等行業(yè)合作伙伴,面向國產(chǎn)異構(gòu)GPU環(huán)境,針對超大模型跨域訓(xùn)練和碎片化算力整合需求,依托“算力智聯(lián)網(wǎng)AINet”長距無損傳輸技術(shù)優(yōu)勢,結(jié)合上海人工智能實驗室“DeepLink” 超大規(guī)?缬蚧煊(xùn)技術(shù)方案,在上海臨港和山東濟(jì)南鮑山數(shù)據(jù)中心間構(gòu)建長度超1500公里的跨域異構(gòu)混訓(xùn)系統(tǒng);通過自動調(diào)整多種并行策略和跨域收斂比下MoE模型和Dense模型的參數(shù)配置,完成了超1500公里跨域的千億參數(shù)AI大模型異構(gòu)混訓(xùn)試驗,經(jīng)驗證等效算力可達(dá)單芯片單集群等效算力的95%以上。在算力互聯(lián)層面,采用聯(lián)通自研內(nèi)置長距RDMA協(xié)議棧的RoCE交換機,兼顧DC內(nèi)和DC間高性能網(wǎng)絡(luò)需求;在算力調(diào)度與資源管理層面,通過聯(lián)通“智馭”平臺實現(xiàn)對跨域網(wǎng)絡(luò)和集群的統(tǒng)一管控及任務(wù)調(diào)度;在算力協(xié)同層面,基于DeepLink在訓(xùn)練加速、異構(gòu)通信、并行策略等核心技術(shù),實現(xiàn)千億參數(shù)大模型在超長距離異構(gòu)GPU環(huán)境下的高效訓(xùn)練。
上述成果標(biāo)志著中國聯(lián)通在算力基礎(chǔ)設(shè)施跨域協(xié)同調(diào)度、異構(gòu)資源融合與高性能分布式訓(xùn)練等關(guān)鍵領(lǐng)域?qū)崿F(xiàn)了實質(zhì)性技術(shù)突破,為下一代互聯(lián)網(wǎng)產(chǎn)業(yè)發(fā)展奠定堅實基礎(chǔ)。面向未來,中國聯(lián)通將錨定“世界一流科技服務(wù)企業(yè)”戰(zhàn)略目標(biāo),持續(xù)深耕智算基礎(chǔ)設(shè)施和下一代互聯(lián)網(wǎng)領(lǐng)域關(guān)鍵技術(shù),攜手產(chǎn)學(xué)研用各界合作伙伴,從組網(wǎng)、協(xié)議、管控等方面,共同推動智算網(wǎng)絡(luò)核心技術(shù)突破、前沿應(yīng)用場景落地與生態(tài)體系建設(shè)。