C114通信網(wǎng)  |  通信人家園

資訊
2024/8/31 20:20

躋身“算力一線城市”,哈爾濱用了兩個“100天”——國內(nèi)運(yùn)營商最大單集群智算中心彰顯技術(shù)創(chuàng)新力量

C114通信網(wǎng)  

哈爾濱,這座以“冰城”之名聞名遐邇的城市,憑借著豐富的冰雪資源和旅游資源成為“網(wǎng)紅”。而如今,它又憑借著得天獨(dú)厚的地理優(yōu)勢,斬獲了一張嶄新的“名片”,昂首闊步地邁進(jìn)了“算力一線城市”的行列。

8月30日,國內(nèi)運(yùn)營商最大單集群智算中心——中國移動智算中心(哈爾濱)建設(shè)完成并正式投產(chǎn)使用。單集群擁有超過1.8萬卡的豐富資源,可提供6.9EFLOPS(每秒690億億次浮點(diǎn)運(yùn)算)智能算力。其規(guī)模之大、技術(shù)之先進(jìn),預(yù)示著一場關(guān)于算力與創(chuàng)新的革命即將上演。

智算中心的技術(shù)發(fā)展不斷推動著AI的邊界,高性能處理器、高速存儲、高吞吐低時延、高質(zhì)效集成交付等都是智算中心技術(shù)創(chuàng)新的關(guān)鍵。中國移動研究院在智算萬卡集群關(guān)鍵技術(shù)攻關(guān)中,通過多項(xiàng)創(chuàng)新技術(shù)確保大模型運(yùn)行的低時延、高帶寬數(shù)據(jù)處理和存儲能力;同時,通過自動化、數(shù)智化能力確保資源池的高效率高質(zhì)量交付,這展現(xiàn)出中國移動在科技創(chuàng)新、產(chǎn)業(yè)引領(lǐng)等方面的強(qiáng)大實(shí)力。

為此,記者滿懷期待地走進(jìn)中國移動(哈爾濱)數(shù)據(jù)中心,與參與萬卡集群項(xiàng)目建設(shè)的中國移動研究院、省公司等專業(yè)人士傾心交談,為讀者緩緩揭開中國移動智算中心(哈爾濱)萬卡集群技術(shù)創(chuàng)新那神秘的面紗,以及背后那些鮮為人知、扣人心弦的故事。

  中國移動(哈爾濱)數(shù)據(jù)中心

兩個“100天”打造世界一流智算中心,呈國之大者風(fēng)采

近兩年,火爆的生成式AI被許多人稱為“暴力美學(xué)”,在模型參數(shù)規(guī)模足夠大,訓(xùn)練數(shù)據(jù)集足夠多,GPU卡數(shù)足夠多的情況下,模型將“涌現(xiàn)”出意想不到的能力。于是,建設(shè)一個萬卡規(guī)模且通用可擴(kuò)展的智算中心,便成了時代的召喚。然而,這絕非易事。

從千卡到萬卡集群,絕非簡單的堆疊,其復(fù)雜度呈指數(shù)級增加。中國移動研究院網(wǎng)絡(luò)與IT技術(shù)研究所副所長唐華斌表示,在萬卡集群的構(gòu)建過程中,一系列技術(shù)難題接踵而至。比如,怎樣在集群規(guī)模擴(kuò)張的同時實(shí)現(xiàn)有效算力的同步線性提升?如何應(yīng)對海量數(shù)據(jù)處理、超大規(guī);ヂ(lián)、集群高可用、高質(zhì)效集成交付等艱巨挑戰(zhàn)?為攻克這些難關(guān),團(tuán)隊(duì)成員們?nèi)找蛊床?/p>

“工期緊、任務(wù)重、挑戰(zhàn)多”是參與中國移動智算中心(哈爾濱)超萬卡智算集群工程建設(shè)成員們最刻骨銘心的感受。從最初的規(guī)劃,到立項(xiàng),再到最終交付,這一浩大工程僅用了令人驚嘆的“兩個100天”。工程現(xiàn)場負(fù)責(zé)人——中國移動黑龍江公司計(jì)劃建設(shè)部項(xiàng)目經(jīng)理丁磊介紹,“項(xiàng)目團(tuán)隊(duì)鎖定目標(biāo),努力拼搏、攻堅(jiān)克難,“一個100天”完成萬卡配套達(dá)產(chǎn);“一個100天”實(shí)現(xiàn)萬卡集群高效交付。提前4個月完成智算中心高質(zhì)量投產(chǎn)。”

作為國內(nèi)運(yùn)營商最大單集群智算中心,哈爾濱智算中心在中國移動全國算力布局中無疑占據(jù)著至關(guān)重要的戰(zhàn)略地位,“作為關(guān)鍵的算力節(jié)點(diǎn),能有效提升區(qū)域乃至全國的算力服務(wù)水平,哈爾濱智算中心作為國內(nèi)首個基于國產(chǎn)技術(shù)棧建成的萬卡智算集群,在行業(yè)中具有非常重大的標(biāo)桿意義。在此之前,智算規(guī)模大多在一萬卡以下,對于千億或者萬億模型訓(xùn)練來說,仍會在一定程度上受限于底層的算力資源。哈爾濱1.8萬卡集群的建成和投入,將更有利于模型團(tuán)隊(duì)充分利用底層資源,通過設(shè)施并行度更高的訓(xùn)練策略,加快模型訓(xùn)練的進(jìn)度。

令人驚嘆的是,哈爾濱智算中心在國產(chǎn)芯片的使用上達(dá)到了規(guī)模最大的程度,堪稱國之大者的擔(dān)當(dāng)體現(xiàn)。積極響應(yīng)國家科技自主創(chuàng)新的號召,大力推動國產(chǎn)芯片在關(guān)鍵領(lǐng)域的應(yīng)用,為國產(chǎn)芯片的發(fā)展提供了廣闊的舞臺。通過大規(guī)模使用國產(chǎn)芯片,不僅提升了智算中心的穩(wěn)定性和安全性,更在全球科技競爭的格局中,彰顯了中國在科技領(lǐng)域自主創(chuàng)新的決心和實(shí)力。

“萬卡集群剛剛建成,為了確保上線后穩(wěn)定高效運(yùn)行,相關(guān)單位已經(jīng)開展了多次溝通,并參考中國移動前期已建成運(yùn)行的智算集群,以及業(yè)界大規(guī)模智算集群的運(yùn)行經(jīng)驗(yàn),從流程優(yōu)化、資源保障、人才培養(yǎng)、工具研發(fā)等全方位著手準(zhǔn)備。”中國移動黑龍江公司網(wǎng)絡(luò)管理部專家韓雪對記者娓娓道來。

  智算中心機(jī)房

攻堅(jiān)克難,科創(chuàng)鐵軍勇?lián)鷩畻澚菏姑?/strong>

中國移動研究院將支撐中國移動智算中心(哈爾濱)建設(shè)作為淬煉科技創(chuàng)新能力,鍛造求上進(jìn)、素質(zhì)高、能打仗、打勝仗的“四鐵”科創(chuàng)鐵軍的主戰(zhàn)場。組建了一支由算力網(wǎng)絡(luò)重大項(xiàng)目負(fù)責(zé)人段曉東牽頭,涵蓋老中青人才雁陣43人的智算攻關(guān)團(tuán)隊(duì),團(tuán)隊(duì)中以研究院“青苗計(jì)劃”人員為代表的“90后”青年科研人員達(dá)到5人。智算攻堅(jiān)項(xiàng)目既是研究院“青苗”科技人才“煉金計(jì)劃”的試金石,也是科研鐵軍大戰(zhàn)大考的大校場。在哈爾濱智算中心建設(shè)中,智算攻關(guān)團(tuán)隊(duì)堅(jiān)持黨建引領(lǐng)和黨建帶團(tuán)建,開展“領(lǐng)題破題 合力攻堅(jiān)”,組建黨員先鋒隊(duì),實(shí)施團(tuán)員“新兵連”培養(yǎng)模式,堅(jiān)持以技術(shù)創(chuàng)新推動算網(wǎng)底座能力提升,提出了一系列獨(dú)具匠心的技術(shù)方案,多項(xiàng)創(chuàng)新成果得到應(yīng)用。中國移動研究院智算攻關(guān)團(tuán)隊(duì)在這次技術(shù)攻堅(jiān)戰(zhàn)中展現(xiàn)出來的雄厚實(shí)力以及責(zé)任感和使命感為哈爾濱萬卡集群工程保駕護(hù)航。

面對萬卡集群建設(shè)的嚴(yán)峻技術(shù)性挑戰(zhàn),中國移動研究院圍繞“新互聯(lián)、新算效、新存儲、新平臺、新節(jié)能”五大創(chuàng)新技術(shù)領(lǐng)域,展開了系統(tǒng)性重構(gòu),制定《中國移動NICC新型智算中心技術(shù)體系》。采用全調(diào)度以太網(wǎng)技術(shù)(GSE)實(shí)現(xiàn)網(wǎng)絡(luò)互聯(lián)的升級,協(xié)同CPU、GPU、DPU三大芯片實(shí)現(xiàn)算效范式優(yōu)化,引入融合存儲技術(shù)支撐高效處理海量文件與對象數(shù)據(jù)。

據(jù)了解,哈爾濱萬卡集群是業(yè)內(nèi)首個大規(guī)模應(yīng)用融合存儲的集群,也是首個落地中國移動原創(chuàng)智算網(wǎng)絡(luò)全調(diào)度以太網(wǎng)(GSE1.0)的萬卡集群,并應(yīng)用中國移動自研AUTO算網(wǎng)基礎(chǔ)設(shè)施自動化平臺實(shí)現(xiàn)萬卡集群自動化驗(yàn)收的全量設(shè)備覆蓋。多個“首個”就像一面面鮮艷的旗幟,充分彰顯出中國移動的研發(fā)實(shí)力和技術(shù)優(yōu)勢。

相比傳統(tǒng)的通用云數(shù)據(jù)中心,智算中心的存儲方案比較復(fù)雜,既要引入支持大模型訓(xùn)練過程中高效數(shù)據(jù)交換的高性能文件存儲,又要引入對象存儲滿足外部數(shù)據(jù)交互需求。為了解決智算中心數(shù)據(jù)跨池拷貝造成的智能算力閑置和浪費(fèi)的問題,中國移動研究院團(tuán)隊(duì)推動在萬卡集群中使用高性能融合存儲技術(shù)。融合存儲,就是建設(shè)一套存儲系統(tǒng),支持多種存儲協(xié)議互通,滿足多樣化的數(shù)據(jù)訪問需求。

中國移動研究院智算攻關(guān)團(tuán)隊(duì)專家閆晗表示,融合存儲對于智算中心建設(shè)可以節(jié)省大量的存儲容量,而且避免數(shù)據(jù)在不同存儲系統(tǒng)之間無效流轉(zhuǎn),用戶可通過對象協(xié)議上傳原始訓(xùn)練數(shù)據(jù)集,AI訓(xùn)練通過文件協(xié)議直接訪問,無需等待跨池?cái)?shù)據(jù)拷貝,AI訓(xùn)練各階段無縫銜接,對大模型訓(xùn)練效率提升可達(dá)星期級。

萬卡集群不同服務(wù)器節(jié)點(diǎn)間頻繁地參數(shù)同步,網(wǎng)絡(luò)的性能成為關(guān)鍵。中國移動在哈爾濱萬卡集群首次正式應(yīng)用GSE1.0,在現(xiàn)有以太網(wǎng)轉(zhuǎn)發(fā)機(jī)制上優(yōu)化負(fù)載均衡和擁塞授權(quán)控制機(jī)制,從而大幅提升GPU節(jié)點(diǎn)間通信效率,將通信占比縮短20%。“以GPT-3單次訓(xùn)練成本140萬美元為例,訓(xùn)練任務(wù)完成時間可縮短20%,節(jié)約成本約28萬美元。”中國移動研究院基礎(chǔ)網(wǎng)絡(luò)技術(shù)研究所副所長程偉強(qiáng)強(qiáng)調(diào),當(dāng)前中國移動正在加快攻關(guān)全調(diào)度以太網(wǎng)2.0技術(shù),將進(jìn)一步革新底層以太網(wǎng)轉(zhuǎn)發(fā)機(jī)制,通過研發(fā)先進(jìn)的以太網(wǎng)芯片,力爭推動網(wǎng)絡(luò)性能提升至30%以上。

此外,在智算中心的建設(shè)過程中,大規(guī)模、多廠商、異構(gòu)化的服務(wù)器、交換機(jī)等設(shè)備的配置集成和測試驗(yàn)收工作量也極為繁重,很容易影響工程質(zhì)量和工期。作為5G、算力網(wǎng)絡(luò)等新型基礎(chǔ)設(shè)施建設(shè)的主力軍,中國移動針對此類問題也早已有“殺手锏”。中國移動研究院自主研發(fā)的“AUTO行云”自動化集成驗(yàn)收平臺,能夠?qū)⒊^95%的人工操作轉(zhuǎn)為自動化,使配置驗(yàn)收環(huán)節(jié)效率提升10倍以上,總體工期縮短2/3以上。

即便如此,參與項(xiàng)目建設(shè)的中國移動研究院AUTO團(tuán)隊(duì)專家馬奇鳳回想起剛接到任務(wù)時的情景,面對如此龐大的規(guī)模和復(fù)雜的狀況,內(nèi)心難免有所擔(dān)憂。“剛接到黑龍江萬卡資源池需求時,我們也嚇了一跳,AUTO要測試的有6000多臺各類設(shè)備,近7萬條網(wǎng)絡(luò)連線,初步測算有將近25萬個測試用例,這個規(guī)模比我們之前驗(yàn)收過的最大的資源池差不多翻了兩番!說實(shí)話我們是有些擔(dān)心AUTO工具的性能,因?yàn)橹皼]有遇到過單池規(guī)模這么大的需求。”

  AUTO運(yùn)行界面

保障現(xiàn)網(wǎng)驗(yàn)收工作順利進(jìn)行,AUTO團(tuán)隊(duì)迅速組建“黑龍江萬卡集群驗(yàn)收保障小組”,與各方緊密溝通,擬定周全的預(yù)案,最終成功跨越了一個又一個技術(shù)障礙。“后來實(shí)踐發(fā)現(xiàn)我們前期的準(zhǔn)備和預(yù)案都發(fā)揮了很好的效果。在哈爾濱1.8萬卡超大規(guī)模智算集群中,2小時內(nèi)即可對所有設(shè)備和網(wǎng)絡(luò)連線進(jìn)行自動化全量檢查,對智算中心高質(zhì)量、高效率交付發(fā)揮了非常關(guān)鍵的作用。”中國移動研究院AUTO團(tuán)隊(duì)專家李鑫欣喜地說道。

“保姆式服務(wù)”是中國移動黑龍江省公司負(fù)責(zé)萬卡集群驗(yàn)收的網(wǎng)絡(luò)部同事們?yōu)楦兄xAUTO團(tuán)隊(duì)現(xiàn)網(wǎng)支撐的敏捷響應(yīng)和實(shí)干精神有感而發(fā)的一個“詞”。

“其實(shí)前期我們在計(jì)劃驗(yàn)收智算區(qū)域節(jié)點(diǎn)千卡集群時,原來預(yù)計(jì)需要一個月才能驗(yàn)收完畢,后來用了AUTO以及少量人工后時間縮短至差不多一周,效率提升73%以上,同時還能保證驗(yàn)收設(shè)備的全覆蓋。”韓雪坦言,“如果實(shí)現(xiàn)的這些效果都投入人工去做的話,會是一個非常大的工作量。使用AUTO后保證效率提升的同時,其實(shí)也就是為智算集群節(jié)省了時間、耗電、人工等多項(xiàng)成本。”

在項(xiàng)目建設(shè)中,從完備的工具到迅速的響應(yīng)速度,再到深度參與問題排查和整改,每一處細(xì)節(jié)都彰顯著團(tuán)隊(duì)的專業(yè)素養(yǎng)與傾心付出。“針對現(xiàn)場測試及發(fā)現(xiàn)問題的回復(fù),響應(yīng)非?,基本都在10分鐘以內(nèi),可以想象團(tuán)隊(duì)在并行開展多個集群測試驗(yàn)收支撐的同時,能做到萬卡集群10分鐘以內(nèi)的響應(yīng)速度還是值得點(diǎn)贊。”韓雪所在的網(wǎng)絡(luò)部驗(yàn)收組對AUTO團(tuán)隊(duì)的服務(wù)給予了高度肯定。

從0到1,國產(chǎn)化算力彰顯國之重器風(fēng)范

盡管“規(guī)模越大、算力越高、效果越好”成為行業(yè)圭皋,然而在國內(nèi),全國產(chǎn)化的GPU萬卡集群屈指可數(shù)。有超大規(guī)模,同時還具備超強(qiáng)通用性的萬卡集群,更是行業(yè)空白。

哈爾濱萬卡集群建成之前,業(yè)界萬卡集群主要是基于某國外廠商GPU建設(shè)的,從計(jì)算到存儲到網(wǎng)絡(luò)幾乎都根植于其技術(shù)體系,成本高昂且難以替代。哈爾濱萬卡集群的建成意味著,國產(chǎn)GPU同樣也可以建設(shè)高效的超萬卡集群,也會進(jìn)而帶動智算產(chǎn)業(yè)鏈中更多的企業(yè)抓住智算發(fā)展的契機(jī),既是找到企業(yè)自身發(fā)展的機(jī)會,也是最終形成國內(nèi)智算產(chǎn)業(yè)整體升級的機(jī)會。

但必須承認(rèn),當(dāng)前萬卡集群,尤其是基于國產(chǎn)技術(shù)棧的萬卡集群還處于起步階段。從整個技術(shù)棧來說,不僅需要在計(jì)算、存儲、網(wǎng)絡(luò)等方面實(shí)現(xiàn)橫向協(xié)同,也需要在基礎(chǔ)設(shè)施、芯片使能軟件、框架層面實(shí)現(xiàn)縱向協(xié)同,涉及的技術(shù)領(lǐng)域之廣,技術(shù)難度之大,也是很少見的。

“在制定萬卡集群技術(shù)方案期間,跨部門跨領(lǐng)域的技術(shù)方案討論特別多,經(jīng)常是某個領(lǐng)域遇到一個技術(shù)難題,就會拉起臨時會議召集各領(lǐng)域同事在線討論,在此期間觀點(diǎn)的碰撞在所難免,畢竟大家是在做一項(xiàng)開拓性的工作,并沒有一個可以照搬照抄的經(jīng)驗(yàn)供參考。值得一提的是,觀點(diǎn)碰撞之后,大家都會想辦法從各自領(lǐng)域?qū)で蠓桨,最終促成一套技術(shù)可行也具備實(shí)施條件的方案。這種跨越不同專業(yè)的信任和互助,是促成萬卡集群技術(shù)方案快速實(shí)施的催化劑。”中國移動研究院智算攻關(guān)團(tuán)隊(duì)專家陳佳媛對團(tuán)隊(duì)的專業(yè)創(chuàng)新性和默契感到驕傲。

在國產(chǎn)化方面,中國移動充分發(fā)揮央企責(zé)任擔(dān)當(dāng)、服務(wù)國家戰(zhàn)略,發(fā)揮串聯(lián)、協(xié)同、帶動作用,以創(chuàng)新架構(gòu)、系統(tǒng)集群、綠色低碳為戰(zhàn)略支點(diǎn),推動培育形成國產(chǎn)人工智能算力產(chǎn)業(yè)生態(tài),在引領(lǐng)延鏈、補(bǔ)鏈、強(qiáng)鏈中升級智能算力供給。

據(jù)了解,目前中國移動已實(shí)現(xiàn)多家國產(chǎn)化智能算力芯片落地與實(shí)際應(yīng)用。隨著人工智能和多模態(tài)大模型的迅猛發(fā)展,算力需求日益激增,國產(chǎn)算力迎來重大發(fā)展機(jī)遇。令人欣喜的是,中國移動的“九天”已實(shí)現(xiàn)數(shù)據(jù)構(gòu)建、預(yù)訓(xùn)練、微調(diào)、部署全鏈路核心技術(shù)自主創(chuàng)新,適配國產(chǎn)算力,實(shí)現(xiàn)全棧國產(chǎn)。與此同時,中國移動將持續(xù)完善智算節(jié)點(diǎn)建設(shè)布局,打造一批萬卡級智算集群,加快超算、量算等多種類型社會算力并網(wǎng),為社會提供更加豐富、更加優(yōu)質(zhì)的智能算力服務(wù)。

展望未來,大模型的競爭熱潮正在驅(qū)動智算中心從千卡集群向萬卡甚至超萬卡集群演進(jìn),中國移動在構(gòu)建超萬卡集群過程中積累了非常寶貴的實(shí)踐經(jīng)驗(yàn),中國移動研究院也將進(jìn)一步發(fā)揮技術(shù)創(chuàng)新的引擎作用,促進(jìn)全調(diào)度以太網(wǎng)GSE、全向智感互聯(lián)OISA、芯合算力原生CAMA等原創(chuàng)核心技術(shù)成熟,為超萬卡集群的創(chuàng)新突破做好技術(shù)儲備,與合作伙伴一起應(yīng)對超萬卡集群建設(shè)和運(yùn)營帶來的前所未有的挑戰(zhàn),共同實(shí)現(xiàn)國產(chǎn)智算設(shè)施的又一次跨越式發(fā)展。

在算力洶涌澎湃的今日,中國移動智算中心以卓越的技術(shù)高度,成為國之重器,以其規(guī)模宏大和責(zé)任使命,擔(dān)當(dāng)國之大者,更以“四鐵”科創(chuàng)鐵軍,挺起國之棟梁的重任。當(dāng)我們審視這個數(shù)字化時代的宏偉畫卷,中國移動算力無疑是其中最為璀璨的一筆,它用強(qiáng)大的力量推動著國家的發(fā)展與進(jìn)步,引領(lǐng)著我們邁向更加輝煌的未來。

給作者點(diǎn)贊
0 VS 0
寫得不太好

  免責(zé)聲明:本文僅代表作者個人觀點(diǎn),與C114通信網(wǎng)無關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時性本站不作任何保證或承諾,請讀者僅作參考,并請自行核實(shí)相關(guān)內(nèi)容。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141