C114訊 9月14日消息(焦焦)9月11日,第25屆中國國際光電博覽會在深圳開幕,在同期舉辦的“智算中心光技術(shù)創(chuàng)新發(fā)展論壇”上,杭州阿里云飛天信息技術(shù)有限公司光網(wǎng)絡(luò)架構(gòu)師翟芷群應(yīng)邀作了題為《智能運維在網(wǎng)絡(luò)中的應(yīng)用及挑戰(zhàn)》的主題演講,分享了阿里云網(wǎng)絡(luò)全生命周期的智能化管理方案。
翟芷群表示,隨著AI的迅速發(fā)展,大規(guī)模的數(shù)據(jù)中心、網(wǎng)絡(luò)、計算,使網(wǎng)絡(luò)的規(guī)模越來越大。如此巨大并且復(fù)雜的網(wǎng)絡(luò),倘若純使用人工方案,會耗費巨大的人力,尤其是現(xiàn)階段AI系統(tǒng)開始在業(yè)界使用起來。由于SRC的影響,這些配置會變得更加復(fù)雜,這時使用人工來調(diào)試,會耗費巨大精力。
開放解耦是實現(xiàn)網(wǎng)絡(luò)智能化的基石
翟芷群介紹到,對于OTN網(wǎng)絡(luò),整個生命周期可以分為五個部分,從最開始接收到業(yè)務(wù)方的需求;然后進行設(shè)計與規(guī)劃,包括確定架構(gòu)和規(guī)劃拓撲;在規(guī)劃結(jié)束后,進入建設(shè)交付階段。在建設(shè)交付階段主要進行配置調(diào)測以及網(wǎng)絡(luò)驗收;當(dāng)網(wǎng)絡(luò)驗收結(jié)束后,就標(biāo)志著業(yè)務(wù)正式上線;此時項目進入運營維護階段。
運營維護階段的工作主要包括:網(wǎng)絡(luò)監(jiān)控、風(fēng)險評估以及故障維修、替換、升級等。最后當(dāng)整個網(wǎng)絡(luò)生命周期結(jié)束后,設(shè)備將進入下線退役階段。
在整個網(wǎng)絡(luò)生命周期中,設(shè)計與規(guī)劃、建設(shè)交付和運營維護三個階段,都可以通過智能化手段來提升效率。但如果想進行全生命周期的智能化管理,翟芷群認為,首先需要獲取大量信息,包括:資源信息、拓撲信息、光纜信息,以及當(dāng)下的網(wǎng)絡(luò)狀態(tài),包括設(shè)備狀態(tài)、光纜狀態(tài)。其次,要有風(fēng)險感知能力,例如設(shè)備告警、網(wǎng)絡(luò)告警等。最后,也是最重要的部分,需要設(shè)備配置能力,這樣才可實現(xiàn)全生命周期的智能化管理。
翟芷群介紹到,傳統(tǒng)OTN網(wǎng)絡(luò)的弊端在于其是“黑盒”,一張傳輸網(wǎng)絡(luò)的所有設(shè)備必須由一家廠商提供,設(shè)備無開放接口,網(wǎng)絡(luò)管控只能在廠商網(wǎng)管上進行。如此,對于使用方而言,沒有很多空間做智能化管控。為此,近些年阿里云一直在做開放解耦的OTN網(wǎng)絡(luò),DCI OTN是白盒網(wǎng)絡(luò),傳輸組網(wǎng)支持跨廠商異構(gòu),設(shè)備支持YANG模型和NETCONF接口,阿里云的自研網(wǎng)管可以管控所有廠商設(shè)備。
OTN網(wǎng)絡(luò)全生命周期智能化管理
翟芷群表示,從整個OTN網(wǎng)絡(luò)生命周期的管理看,全生命周期均可進行網(wǎng)絡(luò)智能化管理。
在設(shè)計與規(guī)劃階段,主要包括架構(gòu)定義以及拓撲規(guī)劃,而有效的設(shè)計和規(guī)劃工具非常重要。其中,架構(gòu)定義最重要的是網(wǎng)絡(luò)余量的設(shè)計,網(wǎng)絡(luò)余量可能隨時間的變化等因素的影響,很難確定光纜劣化的預(yù)留余量指標(biāo)。傳統(tǒng)方案對所有OCH給與相同的余量,通常是通過假設(shè)鏈路中只有一個光纜發(fā)生波動,且是第一個光纜,從而得到一個余量值。但這對于不同的OCH而言顯然不合理。因此阿里云研發(fā)了新的余量設(shè)計方案。
新余量設(shè)計方案首先通過規(guī)劃工具生成最優(yōu)配置,假設(shè)光纜的抖動對每個光纖是獨立分布的,把光纜的抖動獨立地放在每個光纜上,得到GOSNR的分布,再根據(jù)SLA要求,得到require margin,然后確認規(guī)劃拓撲是否滿足需求,滿足需求則進入建設(shè)階段;若不滿足需求重新規(guī)劃拓撲。
在建設(shè)交付階段,主要包括配置自動化下發(fā)和自動化驗收兩步。翟芷群表示,我們的線網(wǎng)是Mesh網(wǎng)絡(luò),調(diào)整的變量可能有上百個,且不同的變量調(diào)整無法精確同時進行。此外,Mesh網(wǎng)絡(luò)不同的調(diào)整變量之間有耦合,很復(fù)雜,需要配置自動化下發(fā)工具,通過鏈路仿真計算輸出所有變量的優(yōu)化目標(biāo),然后自動調(diào)節(jié)光網(wǎng)絡(luò)管控平臺,調(diào)整算法進行調(diào)節(jié)。同時,用光網(wǎng)絡(luò)的數(shù)據(jù)平臺進行秒級的性能實時監(jiān)控。
在建設(shè)交付的自動化驗收階段,主要包括五個步驟:設(shè)備驗收、OTS驗收、OMS驗收、OCH驗收、業(yè)務(wù)驗收。阿里云系統(tǒng)可以對各個層級設(shè)計驗收項,展示各個層級的驗收結(jié)果。
最后進入運營維護階段。翟芷群介紹到,如果想要實現(xiàn)智能化運維,最重要是對網(wǎng)絡(luò)狀態(tài)進行監(jiān)控。網(wǎng)絡(luò)狀態(tài)監(jiān)控有兩種方法:第一種,通過設(shè)備的告警。每個設(shè)備有一個SNMP,通過SNMP agent上報告警到網(wǎng)管系統(tǒng)。
第二種,通過巡檢的任務(wù)調(diào)度。包括配置的檢查、網(wǎng)絡(luò)余量的檢查以及光纖狀態(tài)的檢查。其中,配置檢查,要檢查增益的配置、WSS配置,通過規(guī)劃的工具得到最優(yōu)配置和目前的配置做比較,偏差太多會上報告警。網(wǎng)絡(luò)余量包含兩部分,一是工作路徑的余量,二是備路的余量。光纖狀態(tài)檢查包括檢查銅路狀態(tài)等。
翟芷群表示,在實際使用中,通過設(shè)備告警和巡檢任務(wù)調(diào)度上報的告警量非常大。這時則需要根因定位,把各種告警信息整合起來,生成告警文本,對文本處理后找到根因。定位到根因后,自動生成維修方案,進行自動化調(diào)節(jié)的配置。但并不是所有故障都能自動化。此外,翟芷群強調(diào),運營維護階段最重要的是穩(wěn)定性,在調(diào)節(jié)的過程中,從起點到終點gosnr不能低于設(shè)定的門限,保證業(yè)務(wù)不受影響。
演講最后,翟芷群總結(jié)到,開放解耦是實現(xiàn)網(wǎng)絡(luò)智能化的基石,對于網(wǎng)絡(luò)的智能化管理,規(guī)劃工具以及自動化調(diào)節(jié)工具至關(guān)重要,不同階段自動化手段以及側(cè)重點也均不相同。