導(dǎo)讀
中國移動自2019年正式啟動了核心網(wǎng)系統(tǒng)的NFV云化轉(zhuǎn)型,已建成全球規(guī)模最大的網(wǎng)絡(luò)云,目前核心網(wǎng)云化比例超80%。與傳統(tǒng)由廠商提供軟硬一體化的網(wǎng)絡(luò)設(shè)備不同,NFV云化轉(zhuǎn)型通過軟硬解耦提高網(wǎng)絡(luò)靈活性和開放度的同時,也帶來大規(guī)模、多廠商產(chǎn)品集成與互操作難的問題,成為運營商推進網(wǎng)絡(luò)云化所必須突破的巨大挑戰(zhàn)。
為了應(yīng)對這一挑戰(zhàn),中國移動在實施網(wǎng)絡(luò)云化轉(zhuǎn)型的過程中,充分認識到必須以更加自動化、智能化的手段破解NFV帶來的復(fù)雜度,以工具能力的提升破解人工所無法應(yīng)對的網(wǎng)絡(luò)從建設(shè)到運維的挑戰(zhàn)。按照公司自智網(wǎng)絡(luò)的總體發(fā)展要求,通過提供大規(guī)模資源池內(nèi)服務(wù)器及交換機等設(shè)備的自動化配置能力,在網(wǎng)絡(luò)云落地中的硬件集成建設(shè)環(huán)節(jié)實現(xiàn)了“零接觸自配置”,使得大規(guī)模資源池建設(shè)交付效率大幅提升。
什么是零接觸自配置
傳統(tǒng)大規(guī)模資源池集成硬件配置階段,多采取運營商提供標準、廠商提供技術(shù)的方式,這種傳統(tǒng)方案主要有以下問題:
1、雖然廠商可以提供部分自動化配置工具,但是由于現(xiàn)場設(shè)備數(shù)量及型號種類多,涉及到多個廠家之間對接適配,導(dǎo)致現(xiàn)場仍然需要大量人工操作,配置進度整體較慢,且人工配置出錯率也比較高。
2、當多個資源池同時建設(shè)時,配置信息和設(shè)備信息需雙方確認好具體資源池后,才能執(zhí)行相關(guān)硬件設(shè)備配置,其中涉及的人工溝通成本較高,無法保證信息的實時性及準確性。配置階段各資源池系統(tǒng)獨立運行,相關(guān)硬件配置結(jié)果數(shù)據(jù)無法自動化進行匯總、統(tǒng)計及分析。
3、當硬件設(shè)備的配置項有改動時,需要現(xiàn)場人工觸發(fā)再次配置,當硬件資源池規(guī)模較大、數(shù)量較多時,引入的工作量較大且容易出現(xiàn)錯誤。
網(wǎng)絡(luò)云資源池硬件集成零接觸自配置的技術(shù)方案,就是針對集成過程中運營商自身需求和跨廠商集成痛點進行設(shè)計,在設(shè)備上架上電后,即可自動確認資源池信息、設(shè)備信息及配置內(nèi)容,自動下發(fā)配置到待配設(shè)備。整個過程無需人工參與(零接觸)、全自動化持續(xù)進行(自配置),實現(xiàn)現(xiàn)場隨建隨配、“即插即用”的效果。
解決方案介紹
中國移動網(wǎng)絡(luò)云零接觸自配置技術(shù)架構(gòu)由中央服務(wù)器和分布于各個硬件資源池的本地服務(wù)器組成。中央服務(wù)器集成了各硬件資源池的數(shù)據(jù),控制資源池信息的統(tǒng)一下發(fā),并匯總分析配置結(jié)果,進行全局信息的可視化展示;各資源池本地服務(wù)器則完成硬件設(shè)備配置、上傳單資源池測試結(jié)果至中央服務(wù)器的功能。
本地配置服務(wù)器采用模塊化設(shè)計,其中包括資源池自動化識別模塊、DHCP服務(wù)模塊、PXE鏡像模塊、交換機配置模塊、服務(wù)器配置模塊,相關(guān)配置功能基于SSH、Redfish、IPMI等業(yè)界標準技術(shù)接口實現(xiàn)。
以中國移動網(wǎng)絡(luò)云三期資源池網(wǎng)絡(luò)架構(gòu)為例,整個技術(shù)應(yīng)用流程包括:
(1)本地服務(wù)器接入到硬件資源池后,各功能模塊開始自動運行,通過DHCP模塊為當前連接的交換機設(shè)備分配臨時IP地址。
(2)資源池自動化識別模塊通過臨時IP地址登錄設(shè)備,獲取設(shè)備SN等相關(guān)信息,并以此為依據(jù)向中央服務(wù)器請求,獲取當前資源池的設(shè)備信息和預(yù)先定義、需要配置的各類參數(shù)數(shù)據(jù)。
(3)交換機配置模塊根據(jù)預(yù)先定義的配置參數(shù),通過相關(guān)命令對可訪問的設(shè)備進行配置。根據(jù)不同的交換機類別和型號,可能需要執(zhí)行多輪不同的參數(shù)配置和狀態(tài)檢查,并將配置結(jié)果上傳至中央服務(wù)器。
(4)在交換機逐步完成配置、放通網(wǎng)絡(luò)的過程中,PXE鏡像模塊會陸續(xù)收到服務(wù)器的PXE啟動請求,并根據(jù)預(yù)定義配置信息完成BMC IP地址、網(wǎng)關(guān)等初始化配置。
(5)服務(wù)器BMC IP配置成功后,服務(wù)器配置模塊將通過帶外方式登錄服務(wù)器,對服務(wù)器狀態(tài)進行檢查,并對不滿足預(yù)定義要求的BMC、BIOS等相關(guān)參數(shù)進行配置更新。如果發(fā)現(xiàn)有新版本的BMC固件,也會自動進行更新。
(6)以上所有模塊循環(huán)持續(xù)執(zhí)行,如果設(shè)備存在當前未到貨、未開機、未連線等情況,或者更改了資源池設(shè)計信息,所有配置參數(shù)都會自動更新,直至所有交換機和服務(wù)器配置驗收完成。
方案亮點總結(jié)
中國移動零接觸自配置方案結(jié)合自身大規(guī)模云資源池建設(shè)方式、組網(wǎng)方案和驗收要求等進行了定制優(yōu)化,具有以下亮點:
1、與現(xiàn)場施工低耦合:硬件設(shè)備配置模塊處于持續(xù)運行模式,會持續(xù)對被發(fā)現(xiàn)設(shè)備進行自動配置及檢查,對現(xiàn)場施工方式和進度沒有特殊要求,實現(xiàn)了一種契合現(xiàn)場硬件設(shè)備施工的“隨建隨驗”模式。配置整改報告會通過郵件自動發(fā)送給現(xiàn)場施工負責(zé)人,可第一時間對施工及設(shè)備問題進行整改,減少現(xiàn)場人工溝通和操作,大大提升效率。
2、多廠商設(shè)備適配:基于前期與相關(guān)設(shè)備廠商的合作,自動化配置功能能夠支持中國移動集采的各個廠商和型號的服務(wù)器、交換機設(shè)備。針對不同交換機設(shè)備出廠預(yù)配置、ZTP實現(xiàn)細節(jié)的少量差別,也提前設(shè)計了不同的流程,結(jié)合設(shè)備命令進行適配,確,F(xiàn)場能夠配置成功。
3、配置流程和內(nèi)容精準控制。網(wǎng)絡(luò)云硬集單資源池包含帶內(nèi)、帶外兩張網(wǎng)絡(luò),最多包括上百臺交換機設(shè)備,上千臺服務(wù)器設(shè)備,各類網(wǎng)絡(luò)設(shè)備的配置相互關(guān)聯(lián),配置時序不當會導(dǎo)致干擾和異常,需要精準控制配置邏輯。例如交換機配置模塊按照不同功能的交換機進行分層配置,對配置內(nèi)容和順序進行編排,采取多種措施防環(huán)、防網(wǎng)絡(luò)風(fēng)暴避免設(shè)備出現(xiàn)托管的情況。
應(yīng)用效果及未來展望:
2021-2022年中國移動網(wǎng)絡(luò)云三期項目建設(shè)的硬件集成階段,零接觸自配置技術(shù)方案在10多個省公司的數(shù)十個資源池規(guī)模應(yīng)用。累計完成自動配置40余萬項,與傳統(tǒng)人工配置可能需耗時5-7天相比,單資源池零接觸自配置的平均耗時僅1-2個小時,且一次正確率從傳統(tǒng)的70%左右提升到100%,達到業(yè)界先進水平。
也正是因為采用了零接觸自配置的模式,中國移動研究院的自動化集成技術(shù)支撐團隊,才能夠在投入人員很少的情況下,通過部署在現(xiàn)場的自動化工具,7x24不間斷地支撐網(wǎng)絡(luò)云三期各資源池的建設(shè),為確保交付進度發(fā)揮了重要作用。
中國移動網(wǎng)絡(luò)云零接觸自配置是全球運營商大規(guī)模網(wǎng)絡(luò)云資源池建設(shè)中首次實現(xiàn)硬件集成的零接觸自配置,為NFV云化轉(zhuǎn)型樹立了技術(shù)創(chuàng)新標桿。未來技術(shù)團隊還將進一步完善包含虛擬層、分布式存儲、MANO和網(wǎng)元等在內(nèi)的軟件零接觸自配置方案,并在更多場景推廣應(yīng)用。
作者:
袁昕 中國移動研究院網(wǎng)絡(luò)與IT技術(shù)研究所
張璞 中國移動研究院網(wǎng)絡(luò)與IT技術(shù)研究所