近日,在CCSA (中國通信標準化協(xié)會)TC1(互聯(lián)網(wǎng)與應用)WG4(數(shù)據(jù)中心)工作組會議上,中國移動牽頭的《異構智能算力硬件統(tǒng)一通信機制技術要求》行業(yè)標準獲批立項,標準獲得信通院、燧原、天數(shù)智芯、瀚博、曙光、中興、中國信息通信科技集團等產(chǎn)業(yè)伙伴的支持及共同參與。
當前云計算數(shù)據(jù)中心內(nèi)智能算力形態(tài)呈現(xiàn)多樣化發(fā)展趨勢,不同廠商、不同類型的智能算力硬件,如GPGPU(通用圖像處理器)、NPU(神經(jīng)網(wǎng)絡處理器)、DSA(領域?qū)S眉铀倨鳎┑,亟需一體協(xié)同工作,充分發(fā)揮各自計算優(yōu)勢,充分釋放系統(tǒng)整體效能。而異構混合算力集群中,智能算力硬件互聯(lián)方式各異、通信協(xié)議、數(shù)據(jù)格式及通信接口不一致,各硬件廠商通信庫不兼容,難以實現(xiàn)異構硬件設備間的信息傳遞及參數(shù)同步,亟需面向異構混合算力環(huán)境設計一套異構算力分布式統(tǒng)一通信標準。
根據(jù)統(tǒng)一通信技術與智算芯片軟件棧關系,智能算力硬件統(tǒng)一通信是面向分布式訓推場景的通信機制標準約束,是面向異構智算芯片定義的一套統(tǒng)一通用的通信方法,可用于處理異構智算芯片訓推過程所涉及的參數(shù)傳遞、梯度更新等數(shù)據(jù)傳輸協(xié)同相關操作。
統(tǒng)一通信技術與智算芯片軟件棧關系示意圖
基于統(tǒng)一通信技術研究目標,標準從數(shù)據(jù)傳輸架構、流程及接口等方面制定了一系列規(guī)范化約束,旨在實現(xiàn)同一訓推任務下的跨架構分布式并行數(shù)據(jù)傳輸及協(xié)同。標準內(nèi)容將包括統(tǒng)一通信機制架構、異構算力通信初始化流程及接口、異構算力通信拓撲發(fā)現(xiàn)流程及接口、異構算力數(shù)據(jù)傳輸通道建立流程及接口等。
未來,中國移動將與產(chǎn)學研用各界合作伙伴一起,推動不同廠家、不同架構異構智能算力間形成統(tǒng)一通信機制,助力我國智算生態(tài)融通發(fā)展。