C114訊 5月20日消息(九九)5月17日,2025世界電信和信息社會(huì)日“智算產(chǎn)業(yè)創(chuàng)新發(fā)展論壇”在南昌舉辦。中國移動(dòng)研究院院長黃宇紅發(fā)表題為《超萬卡智算集群技術(shù)創(chuàng)新突破賦能人工智能縱深發(fā)展》的演講。
黃宇紅指出,當(dāng)前通往通用人工智能(AGI)的道路上存在兩條路徑,一條是通過“大模型+大算力+大數(shù)據(jù)”探索模型能力上限;一條是“模型算法+智算設(shè)施”深度融合優(yōu)化,探索成本下限。兩條路徑不僅推高算力需求,也對(duì)智算集群的設(shè)計(jì)提出新要求。
黃宇紅同時(shí)指出,目前,智算領(lǐng)域呈現(xiàn)三大發(fā)展趨勢:預(yù)訓(xùn)練和后訓(xùn)練技術(shù)推動(dòng)算力需求激增,集群規(guī)模向超萬卡演進(jìn),追求極致算效提升;DeepSeek引領(lǐng)AI普惠發(fā)展,加速智算格局發(fā)生根本變化;軟硬垂直優(yōu)化開創(chuàng)大模型發(fā)展全新路徑。
黃宇紅介紹,近年來中國移動(dòng)基于“N+X”智算布局積極推進(jìn)智算中心建設(shè),已建成兩大技術(shù)領(lǐng)先的萬卡集群,并實(shí)現(xiàn)了AI基礎(chǔ)設(shè)施的一體化供給和服務(wù)。面向人工智能時(shí)代發(fā)展新要求,中國移動(dòng)前瞻布局超萬卡集群的原創(chuàng)技術(shù)體系,面向集群算效、生態(tài)融通等方面攻關(guān)超萬卡集群構(gòu)建的系統(tǒng)工程和科學(xué)難題。
在算效提升方面,互聯(lián)技術(shù)是提升集群算效的關(guān)鍵。目前,業(yè)界由于缺乏開放互聯(lián)技術(shù),GPU無法向超節(jié)點(diǎn)演進(jìn),中國移動(dòng)原創(chuàng)提出全向智感互聯(lián)OISA、全調(diào)度以太網(wǎng)GSE,助力國產(chǎn)智算集群效能躍升。其中,OISA,通過定義協(xié)議棧、報(bào)文、流控及重傳等機(jī)制,推動(dòng)GPU互聯(lián)能力提升10倍以上,已經(jīng)在國內(nèi)形成了廣泛的互聯(lián)生態(tài)。全調(diào)度以太網(wǎng)GSE立足兩大場景,圍繞兩顆芯片,攜手產(chǎn)業(yè)伙伴持續(xù)攻關(guān)GSE關(guān)鍵技術(shù),加速構(gòu)建GSE產(chǎn)業(yè)生態(tài),滿足超萬卡甚至未來超十萬卡智算集群的建設(shè)需求。
在生態(tài)融通方面,打造基礎(chǔ)軟件系統(tǒng)將成為驅(qū)動(dòng)算法和基礎(chǔ)設(shè)施深層次協(xié)同的關(guān)鍵。針對(duì)各廠商智算生態(tài)互不兼容,應(yīng)用難以跨架構(gòu)遷移,制約整體訓(xùn)練和推理效能的問題。中國移動(dòng)原創(chuàng)提出算力原生和異構(gòu)混訓(xùn)技術(shù),提升基礎(chǔ)設(shè)施對(duì)模型的適配能力。其中,芯合算力原生通過構(gòu)建異構(gòu)算力統(tǒng)一抽象機(jī)制與跨架構(gòu)平臺(tái),實(shí)現(xiàn)多樣算力一體適配,應(yīng)用一次開發(fā),跨芯一鍵部署遷移,目前已支持7家GPU跨架構(gòu)高效推理;異構(gòu)混訓(xùn)技術(shù)通過創(chuàng)新任務(wù)非均勻切分框架,實(shí)現(xiàn)異構(gòu)算力聚合訓(xùn)練,開辟了以軟補(bǔ)硬引領(lǐng)生態(tài)發(fā)展的全“芯”發(fā)展路徑。