C114訊 9月14日消息(焦焦)9月11日,第25屆中國國際光電博覽會(huì)在深圳開幕,在同期舉辦的“智算中心光技術(shù)創(chuàng)新發(fā)展論壇”上,杭州阿里云飛天信息技術(shù)有限公司光網(wǎng)絡(luò)架構(gòu)師翟芷群應(yīng)邀作了題為《智能運(yùn)維在網(wǎng)絡(luò)中的應(yīng)用及挑戰(zhàn)》的主題演講,分享了阿里云網(wǎng)絡(luò)全生命周期的智能化管理方案。
翟芷群表示,隨著AI的迅速發(fā)展,大規(guī)模的數(shù)據(jù)中心、網(wǎng)絡(luò)、計(jì)算,使網(wǎng)絡(luò)的規(guī)模越來越大。如此巨大并且復(fù)雜的網(wǎng)絡(luò),倘若純使用人工方案,會(huì)耗費(fèi)巨大的人力,尤其是現(xiàn)階段AI系統(tǒng)開始在業(yè)界使用起來。由于SRC的影響,這些配置會(huì)變得更加復(fù)雜,這時(shí)使用人工來調(diào)試,會(huì)耗費(fèi)巨大精力。
開放解耦是實(shí)現(xiàn)網(wǎng)絡(luò)智能化的基石
翟芷群介紹到,對于OTN網(wǎng)絡(luò),整個(gè)生命周期可以分為五個(gè)部分,從最開始接收到業(yè)務(wù)方的需求;然后進(jìn)行設(shè)計(jì)與規(guī)劃,包括確定架構(gòu)和規(guī)劃拓?fù);在?guī)劃結(jié)束后,進(jìn)入建設(shè)交付階段。在建設(shè)交付階段主要進(jìn)行配置調(diào)測以及網(wǎng)絡(luò)驗(yàn)收;當(dāng)網(wǎng)絡(luò)驗(yàn)收結(jié)束后,就標(biāo)志著業(yè)務(wù)正式上線;此時(shí)項(xiàng)目進(jìn)入運(yùn)營維護(hù)階段。
運(yùn)營維護(hù)階段的工作主要包括:網(wǎng)絡(luò)監(jiān)控、風(fēng)險(xiǎn)評估以及故障維修、替換、升級(jí)等。最后當(dāng)整個(gè)網(wǎng)絡(luò)生命周期結(jié)束后,設(shè)備將進(jìn)入下線退役階段。
在整個(gè)網(wǎng)絡(luò)生命周期中,設(shè)計(jì)與規(guī)劃、建設(shè)交付和運(yùn)營維護(hù)三個(gè)階段,都可以通過智能化手段來提升效率。但如果想進(jìn)行全生命周期的智能化管理,翟芷群認(rèn)為,首先需要獲取大量信息,包括:資源信息、拓?fù)湫畔ⅰ?a href="http://sancean.com/search/?q=%B9%E2%C0%C2" target="_blank" class="keyword">光纜信息,以及當(dāng)下的網(wǎng)絡(luò)狀態(tài),包括設(shè)備狀態(tài)、光纜狀態(tài)。其次,要有風(fēng)險(xiǎn)感知能力,例如設(shè)備告警、網(wǎng)絡(luò)告警等。最后,也是最重要的部分,需要設(shè)備配置能力,這樣才可實(shí)現(xiàn)全生命周期的智能化管理。
翟芷群介紹到,傳統(tǒng)OTN網(wǎng)絡(luò)的弊端在于其是“黑盒”,一張傳輸網(wǎng)絡(luò)的所有設(shè)備必須由一家廠商提供,設(shè)備無開放接口,網(wǎng)絡(luò)管控只能在廠商網(wǎng)管上進(jìn)行。如此,對于使用方而言,沒有很多空間做智能化管控。為此,近些年阿里云一直在做開放解耦的OTN網(wǎng)絡(luò),DCI OTN是白盒網(wǎng)絡(luò),傳輸組網(wǎng)支持跨廠商異構(gòu),設(shè)備支持YANG模型和NETCONF接口,阿里云的自研網(wǎng)管可以管控所有廠商設(shè)備。
OTN網(wǎng)絡(luò)全生命周期智能化管理
翟芷群表示,從整個(gè)OTN網(wǎng)絡(luò)生命周期的管理看,全生命周期均可進(jìn)行網(wǎng)絡(luò)智能化管理。
在設(shè)計(jì)與規(guī)劃階段,主要包括架構(gòu)定義以及拓?fù)湟?guī)劃,而有效的設(shè)計(jì)和規(guī)劃工具非常重要。其中,架構(gòu)定義最重要的是網(wǎng)絡(luò)余量的設(shè)計(jì),網(wǎng)絡(luò)余量可能隨時(shí)間的變化等因素的影響,很難確定光纜劣化的預(yù)留余量指標(biāo)。傳統(tǒng)方案對所有OCH給與相同的余量,通常是通過假設(shè)鏈路中只有一個(gè)光纜發(fā)生波動(dòng),且是第一個(gè)光纜,從而得到一個(gè)余量值。但這對于不同的OCH而言顯然不合理。因此阿里云研發(fā)了新的余量設(shè)計(jì)方案。
新余量設(shè)計(jì)方案首先通過規(guī)劃工具生成最優(yōu)配置,假設(shè)光纜的抖動(dòng)對每個(gè)光纖是獨(dú)立分布的,把光纜的抖動(dòng)獨(dú)立地放在每個(gè)光纜上,得到GOSNR的分布,再根據(jù)SLA要求,得到require margin,然后確認(rèn)規(guī)劃拓?fù)涫欠駶M足需求,滿足需求則進(jìn)入建設(shè)階段;若不滿足需求重新規(guī)劃拓?fù)洹?/p>
在建設(shè)交付階段,主要包括配置自動(dòng)化下發(fā)和自動(dòng)化驗(yàn)收兩步。翟芷群表示,我們的線網(wǎng)是Mesh網(wǎng)絡(luò),調(diào)整的變量可能有上百個(gè),且不同的變量調(diào)整無法精確同時(shí)進(jìn)行。此外,Mesh網(wǎng)絡(luò)不同的調(diào)整變量之間有耦合,很復(fù)雜,需要配置自動(dòng)化下發(fā)工具,通過鏈路仿真計(jì)算輸出所有變量的優(yōu)化目標(biāo),然后自動(dòng)調(diào)節(jié)光網(wǎng)絡(luò)管控平臺(tái),調(diào)整算法進(jìn)行調(diào)節(jié)。同時(shí),用光網(wǎng)絡(luò)的數(shù)據(jù)平臺(tái)進(jìn)行秒級(jí)的性能實(shí)時(shí)監(jiān)控。
在建設(shè)交付的自動(dòng)化驗(yàn)收階段,主要包括五個(gè)步驟:設(shè)備驗(yàn)收、OTS驗(yàn)收、OMS驗(yàn)收、OCH驗(yàn)收、業(yè)務(wù)驗(yàn)收。阿里云系統(tǒng)可以對各個(gè)層級(jí)設(shè)計(jì)驗(yàn)收項(xiàng),展示各個(gè)層級(jí)的驗(yàn)收結(jié)果。
最后進(jìn)入運(yùn)營維護(hù)階段。翟芷群介紹到,如果想要實(shí)現(xiàn)智能化運(yùn)維,最重要是對網(wǎng)絡(luò)狀態(tài)進(jìn)行監(jiān)控。網(wǎng)絡(luò)狀態(tài)監(jiān)控有兩種方法:第一種,通過設(shè)備的告警。每個(gè)設(shè)備有一個(gè)SNMP,通過SNMP agent上報(bào)告警到網(wǎng)管系統(tǒng)。
第二種,通過巡檢的任務(wù)調(diào)度。包括配置的檢查、網(wǎng)絡(luò)余量的檢查以及光纖狀態(tài)的檢查。其中,配置檢查,要檢查增益的配置、WSS配置,通過規(guī)劃的工具得到最優(yōu)配置和目前的配置做比較,偏差太多會(huì)上報(bào)告警。網(wǎng)絡(luò)余量包含兩部分,一是工作路徑的余量,二是備路的余量。光纖狀態(tài)檢查包括檢查銅路狀態(tài)等。
翟芷群表示,在實(shí)際使用中,通過設(shè)備告警和巡檢任務(wù)調(diào)度上報(bào)的告警量非常大。這時(shí)則需要根因定位,把各種告警信息整合起來,生成告警文本,對文本處理后找到根因。定位到根因后,自動(dòng)生成維修方案,進(jìn)行自動(dòng)化調(diào)節(jié)的配置。但并不是所有故障都能自動(dòng)化。此外,翟芷群強(qiáng)調(diào),運(yùn)營維護(hù)階段最重要的是穩(wěn)定性,在調(diào)節(jié)的過程中,從起點(diǎn)到終點(diǎn)gosnr不能低于設(shè)定的門限,保證業(yè)務(wù)不受影響。
演講最后,翟芷群總結(jié)到,開放解耦是實(shí)現(xiàn)網(wǎng)絡(luò)智能化的基石,對于網(wǎng)絡(luò)的智能化管理,規(guī)劃工具以及自動(dòng)化調(diào)節(jié)工具至關(guān)重要,不同階段自動(dòng)化手段以及側(cè)重點(diǎn)也均不相同。