近日,在CCSA (中國通信標(biāo)準(zhǔn)化協(xié)會)TC1(互聯(lián)網(wǎng)與應(yīng)用)WG4(數(shù)據(jù)中心)工作組會議上,中國移動牽頭的《異構(gòu)智能算力硬件統(tǒng)一通信機(jī)制技術(shù)要求》行業(yè)標(biāo)準(zhǔn)獲批立項,標(biāo)準(zhǔn)獲得信通院、燧原、天數(shù)智芯、瀚博、曙光、中興、中國信息通信科技集團(tuán)等產(chǎn)業(yè)伙伴的支持及共同參與。
當(dāng)前云計算數(shù)據(jù)中心內(nèi)智能算力形態(tài)呈現(xiàn)多樣化發(fā)展趨勢,不同廠商、不同類型的智能算力硬件,如GPGPU(通用圖像處理器)、NPU(神經(jīng)網(wǎng)絡(luò)處理器)、DSA(領(lǐng)域?qū)S眉铀倨鳎┑,亟需一體協(xié)同工作,充分發(fā)揮各自計算優(yōu)勢,充分釋放系統(tǒng)整體效能。而異構(gòu)混合算力集群中,智能算力硬件互聯(lián)方式各異、通信協(xié)議、數(shù)據(jù)格式及通信接口不一致,各硬件廠商通信庫不兼容,難以實現(xiàn)異構(gòu)硬件設(shè)備間的信息傳遞及參數(shù)同步,亟需面向異構(gòu)混合算力環(huán)境設(shè)計一套異構(gòu)算力分布式統(tǒng)一通信標(biāo)準(zhǔn)。
根據(jù)統(tǒng)一通信技術(shù)與智算芯片軟件棧關(guān)系,智能算力硬件統(tǒng)一通信是面向分布式訓(xùn)推場景的通信機(jī)制標(biāo)準(zhǔn)約束,是面向異構(gòu)智算芯片定義的一套統(tǒng)一通用的通信方法,可用于處理異構(gòu)智算芯片訓(xùn)推過程所涉及的參數(shù)傳遞、梯度更新等數(shù)據(jù)傳輸協(xié)同相關(guān)操作。
統(tǒng)一通信技術(shù)與智算芯片軟件棧關(guān)系示意圖
基于統(tǒng)一通信技術(shù)研究目標(biāo),標(biāo)準(zhǔn)從數(shù)據(jù)傳輸架構(gòu)、流程及接口等方面制定了一系列規(guī)范化約束,旨在實現(xiàn)同一訓(xùn)推任務(wù)下的跨架構(gòu)分布式并行數(shù)據(jù)傳輸及協(xié)同。標(biāo)準(zhǔn)內(nèi)容將包括統(tǒng)一通信機(jī)制架構(gòu)、異構(gòu)算力通信初始化流程及接口、異構(gòu)算力通信拓?fù)浒l(fā)現(xiàn)流程及接口、異構(gòu)算力數(shù)據(jù)傳輸通道建立流程及接口等。
未來,中國移動將與產(chǎn)學(xué)研用各界合作伙伴一起,推動不同廠家、不同架構(gòu)異構(gòu)智能算力間形成統(tǒng)一通信機(jī)制,助力我國智算生態(tài)融通發(fā)展。