C114通信網(wǎng)  |  通信人家園

資訊
2024/9/13 17:04

哈爾濱智算集群現(xiàn)場(chǎng),有這樣一名特殊的“數(shù)智員工”

C114通信網(wǎng)  

8月30日,中國(guó)移動(dòng)智算中心(哈爾濱)正式建成并投產(chǎn)使用,作為國(guó)內(nèi)運(yùn)營(yíng)商最大的單集群智算中心,無(wú)論從前期的規(guī)劃設(shè)計(jì)、技術(shù)體系制定還是現(xiàn)場(chǎng)的規(guī)模數(shù)量、設(shè)備多樣性、建設(shè)驗(yàn)收都是一項(xiàng)巨大的、復(fù)雜的系統(tǒng)工程。在工程最繁忙的時(shí)候,現(xiàn)場(chǎng)有來(lái)自中國(guó)移動(dòng)內(nèi)部相關(guān)單位以及設(shè)備商、集成商等外部合作伙伴近200名技術(shù)人員。而在其中,一名來(lái)自中國(guó)移動(dòng)研究院的特殊的“數(shù)智員工”——“AUTO行云”自動(dòng)化集成驗(yàn)收工具,以其兢兢業(yè)業(yè)的工作態(tài)度和高效可靠的工作能力,為這一里程碑式的智算萬(wàn)卡集群順利上線提供了有力保障。

萬(wàn)卡集群的高效交付為什么需要“數(shù)智員工”

近年來(lái),以大模型為代表的人工智能技術(shù)取得了飛速發(fā)展,這一對(duì)未來(lái)影響深遠(yuǎn)的技術(shù)變革,使得作為人工智能發(fā)展基礎(chǔ)的大規(guī)模智算中心的建設(shè),也日漸成為各大企業(yè)乃至大國(guó)之間競(jìng)爭(zhēng)的新焦點(diǎn)。在這一過(guò)程中,不僅算力規(guī)模日益龐大,從千卡向萬(wàn)卡乃至未來(lái)十萬(wàn)卡的量級(jí)快速擴(kuò)張,算力基礎(chǔ)設(shè)施的快速供應(yīng)也也成為關(guān)鍵。據(jù)消息稱(chēng),馬斯克最近投產(chǎn)的10萬(wàn)卡超算集群,從硬件安裝到投入訓(xùn)練,總共只花了19天時(shí)間。

與此同時(shí),在大規(guī)模基礎(chǔ)設(shè)施特別是萬(wàn)卡新型智算中心建設(shè)過(guò)程中,數(shù)千臺(tái)設(shè)備、數(shù)萬(wàn)條網(wǎng)絡(luò)連線、數(shù)十萬(wàn)項(xiàng)各類(lèi)設(shè)備規(guī)格等等,會(huì)不可避免的發(fā)生設(shè)備硬件故障及驅(qū)動(dòng)程序錯(cuò)誤、網(wǎng)絡(luò)連線及光模塊問(wèn)題,以及人工設(shè)備參數(shù)配置錯(cuò)誤等。必須要對(duì)硬件進(jìn)行全面、準(zhǔn)確的驗(yàn)收檢查,發(fā)現(xiàn)、定位和幫助整改各類(lèi)問(wèn)題,以高質(zhì)量的算力基礎(chǔ)設(shè)施確保后續(xù)大模型訓(xùn)練的正常運(yùn)行。

可以想見(jiàn),對(duì)于如此大的工作量,如果采用人工,即使可以通過(guò)投入大量資源完成測(cè)試,項(xiàng)目工期也是完全不可接受的。為應(yīng)對(duì)這一挑戰(zhàn),中國(guó)移動(dòng)研究院自研的“AUTO行云”自動(dòng)化集成驗(yàn)收工具應(yīng)運(yùn)而生。幾年來(lái),該工具已經(jīng)在網(wǎng)絡(luò)云、IT云和智算中心等320多個(gè)資源池建設(shè)中累計(jì)應(yīng)用超過(guò)30萬(wàn)臺(tái)服務(wù)器,將超過(guò)95%的人工操作轉(zhuǎn)為自動(dòng)化,使配置驗(yàn)收環(huán)節(jié)效率提升10倍以上,整體工期縮短2/3以上。

為了便于現(xiàn)場(chǎng)使用自動(dòng)化工具開(kāi)展集成驗(yàn)收,AUTO團(tuán)隊(duì)打造了可遠(yuǎn)程訪問(wèn)的AUTOBox軟硬一體機(jī)設(shè)備,每當(dāng)有類(lèi)似哈爾濱智算集群這樣的大規(guī)模算網(wǎng)基礎(chǔ)設(shè)施建設(shè)項(xiàng)目,一臺(tái)AUTOBox就會(huì)作為一名“數(shù)智員工”出差到現(xiàn)場(chǎng),成為輔助項(xiàng)目集成和驗(yàn)收的技術(shù)中堅(jiān)力量。

  AUTO“數(shù)智員工”(位于哈爾濱萬(wàn)卡集群)

“數(shù)智員工”在哈爾濱萬(wàn)卡集群中的表現(xiàn)可圈可點(diǎn)

在哈爾濱萬(wàn)卡集群現(xiàn)場(chǎng),研究院這名被大家親切稱(chēng)之為“小5”(編號(hào)為AUTO-5)的“員工”,在歷時(shí)近2個(gè)月的集成驗(yàn)收測(cè)試期間表現(xiàn)可謂可圈可點(diǎn),獲得大家的一致認(rèn)可。

勇于擔(dān)當(dāng),直面困難不退縮。哈爾濱萬(wàn)卡集群的各類(lèi)服務(wù)器、交換機(jī)等設(shè)備數(shù)量超過(guò)6000臺(tái),連線數(shù)量近7萬(wàn)條,這一規(guī)模比AUTO以往驗(yàn)收過(guò)的最大規(guī)模資源池還要大3倍以上。雖然AUTO團(tuán)隊(duì)特意選派了“身體素質(zhì)好、戰(zhàn)斗力強(qiáng)”(設(shè)備配置高、性能強(qiáng))的“小5”前往哈爾濱,但在開(kāi)始工作之處還是遭遇了嚴(yán)重的性能挑戰(zhàn)。

例如,其它集群中,一般1小時(shí)就可以完成的一輪全量驗(yàn)收測(cè)試,在萬(wàn)卡智算集群中需要耗費(fèi)7至8小時(shí)。由于龐大的數(shù)據(jù)量對(duì)數(shù)據(jù)庫(kù)造成的壓力,可視化測(cè)試驗(yàn)收界面在加載數(shù)據(jù)時(shí)頻繁出現(xiàn)響應(yīng)緩慢,使得一線工程師難以實(shí)時(shí)監(jiān)控和了解測(cè)試的具體進(jìn)展。為此,AUTO團(tuán)隊(duì)迅速在調(diào)度策略、數(shù)據(jù)庫(kù)寫(xiě)入次數(shù)、SQL執(zhí)行解耦、界面加載優(yōu)化等多維度制定優(yōu)化措施,保障“小5”的運(yùn)行性能。經(jīng)過(guò)不斷努力,將單輪全量測(cè)試時(shí)間壓縮到2小時(shí)以?xún)?nèi)完成、錯(cuò)誤用例的重測(cè)間隔時(shí)間更是控制到半小時(shí)以?xún)?nèi),頁(yè)面響應(yīng)速度也大幅提升。

勤勉盡責(zé),默默嚴(yán)守質(zhì)量關(guān)。從7月初進(jìn)駐現(xiàn)場(chǎng)開(kāi)始,“小5”就默默地待在機(jī)房的一個(gè)角落,保持著7×24小時(shí)的高強(qiáng)度、不間斷自動(dòng)運(yùn)轉(zhuǎn)。哈爾濱智算集群的驗(yàn)收用例總計(jì)超過(guò)25萬(wàn)個(gè),“小5”一輪接著一輪運(yùn)行,第一時(shí)間通過(guò)頁(yè)面、郵件等方式匯報(bào)測(cè)試結(jié)果和發(fā)現(xiàn)的問(wèn)題。

“小5”同時(shí)也是連接智算集群、一線工程師和AUTO團(tuán)隊(duì)的媒介。一方面,AUTO團(tuán)隊(duì)和一線工程師均可通過(guò)“小5”獲取測(cè)試結(jié)果的整體情況和詳細(xì)報(bào)告,并安排“小5”對(duì)部分測(cè)試用例進(jìn)行臨時(shí)復(fù)測(cè),或者通過(guò)更新代碼、數(shù)據(jù)來(lái)升級(jí)“小5”的能力。另一方面,“小5”還自帶最新的基于大模型的“智能助手”,協(xié)助現(xiàn)網(wǎng)工程師實(shí)現(xiàn)快速問(wèn)題分析并指導(dǎo)整改。

  AUTO運(yùn)行界面(位于哈爾濱萬(wàn)卡集群)

持續(xù)進(jìn)步,高效掌握新技能。在AUTO平臺(tái)以往的使用模式中,為保障測(cè)試過(guò)程和結(jié)果的準(zhǔn)確和可靠,通常需要人工預(yù)先準(zhǔn)備詳盡的期望值數(shù)據(jù)作為驗(yàn)收的依據(jù),期望值的內(nèi)容如有錯(cuò)漏將直接影響自動(dòng)化驗(yàn)收的結(jié)果。在本次哈爾濱萬(wàn)卡集群中,面對(duì)6千余臺(tái)設(shè)備規(guī)模、約40種配置模型、每種模型包含30余個(gè)參數(shù)項(xiàng)的復(fù)雜場(chǎng)景特征,如何在盡量減少人員投入、避免反復(fù)溝通的情況下,快速準(zhǔn)確準(zhǔn)備數(shù)據(jù)成為關(guān)鍵問(wèn)題。

為解決這一難題,AUTO團(tuán)隊(duì)為“小5”增加了“自學(xué)習(xí)”的能力。通過(guò)我們稱(chēng)之為AUTOZero的無(wú)監(jiān)督自學(xué)習(xí)的數(shù)據(jù)管理算法,通過(guò)現(xiàn)場(chǎng)采集設(shè)備信息,采用智能算法來(lái)預(yù)測(cè)各類(lèi)設(shè)備的組件規(guī)格、配置參數(shù)等期望結(jié)果,實(shí)際使用中預(yù)測(cè)準(zhǔn)確率達(dá)到95%以上,可減少80%的數(shù)據(jù)準(zhǔn)備及校驗(yàn)工作量,顯著縮短了驗(yàn)收的準(zhǔn)備時(shí)間。

即時(shí)響應(yīng),周到服務(wù)暖人心。在現(xiàn)場(chǎng)駐守的“小5”背后,是AUTO平臺(tái)軟件開(kāi)發(fā)和實(shí)施支撐團(tuán)隊(duì)的近10名經(jīng)驗(yàn)豐富的研究院同事。“保姆式服務(wù)”,是黑龍江省公司負(fù)責(zé)萬(wàn)卡集群驗(yàn)收的網(wǎng)絡(luò)部同事們,對(duì)AUTO團(tuán)隊(duì)現(xiàn)網(wǎng)支撐的敏捷響應(yīng)和實(shí)干精神有感而發(fā)的一個(gè)“詞”。AUTO團(tuán)隊(duì)為保障萬(wàn)卡資源池的順利進(jìn)行,多次與省公司和一線工程師溝通,根據(jù)現(xiàn)場(chǎng)需求快速響應(yīng)實(shí)現(xiàn)分批測(cè)試、定位報(bào)錯(cuò)設(shè)備位置信息、頁(yè)面會(huì)話(huà)保存、LLD更新時(shí)間等功能。通過(guò)多方的實(shí)時(shí)溝通,以及快速的測(cè)試問(wèn)題整改響應(yīng),哈爾濱萬(wàn)卡集群第一批設(shè)備在一周內(nèi)測(cè)試通過(guò)率迅速提升至99%,成為智算驗(yàn)收過(guò)程中整改速度最快的集群。省公司同事自己測(cè)算,整體驗(yàn)收效率提升73%以上,通過(guò)節(jié)省智算集群的上線時(shí)間,也進(jìn)一步降低了能耗、人工等多項(xiàng)成本。

面向未來(lái),AUTO“數(shù)智員工”時(shí)刻待命

兩個(gè)“100”天打造了哈爾濱萬(wàn)卡集群建設(shè)交付的圓滿(mǎn)佳績(jī)。AUTO在這個(gè)過(guò)程中也邁上了新臺(tái)階,不僅在集群規(guī)模上突破了歷史記錄,更是在流程、性能、功能、服務(wù)等各方面都取得了新的里程碑式成果。

哈爾濱1.8萬(wàn)卡的超大規(guī)模智算集群成功上線,未來(lái)更多、更大的智算集群仍然在路上。在交流中,省公司對(duì)AUTO也提出了更多的應(yīng)用場(chǎng)景和功能需求,如自動(dòng)化設(shè)備參數(shù)配置、標(biāo)簽智能化識(shí)別、數(shù)字孿生場(chǎng)景的網(wǎng)絡(luò)拓?fù)鋵?shí)現(xiàn)等等。“小5”和小伙伴們將在前期積累的技術(shù)創(chuàng)新和實(shí)戰(zhàn)經(jīng)驗(yàn),以及與項(xiàng)目一線的良好合作的基礎(chǔ)上,進(jìn)一步提升能力,隨時(shí)準(zhǔn)備奔赴新的智算中心建設(shè)現(xiàn)場(chǎng),為公司智算集群建設(shè)和國(guó)家算力基礎(chǔ)設(shè)施的高質(zhì)量發(fā)展做出貢獻(xiàn)。

給作者點(diǎn)贊
0 VS 0
寫(xiě)得不太好

  免責(zé)聲明:本文僅代表作者個(gè)人觀點(diǎn),與C114通信網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。

熱門(mén)文章
    最新視頻
    為您推薦

      C114簡(jiǎn)介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機(jī)版

      Copyright©1999-2024 c114 All Rights Reserved | 滬ICP備12002291號(hào)

      C114 通信網(wǎng) 版權(quán)所有 舉報(bào)電話(huà):021-54451141