AIGC的爆炸性增長對傳輸交換帶寬以及功耗提出了前所未有的要求,智算中心作為信息處理的核心,其中光互聯(lián)網(wǎng)絡(luò)技術(shù),尤其是全光交換技術(shù),因其高帶寬、低功耗、低時延的特性,成為海量數(shù)據(jù)互聯(lián)的關(guān)鍵支撐技術(shù)。在近期舉辦的2024中國光網(wǎng)絡(luò)研討會(OptiNet China)上,凌云光光纖器件與儀器事業(yè)部解決方案總監(jiān)張華博士與行業(yè)同仁分享了在AIGC時代智算中心光互聯(lián)網(wǎng)絡(luò)技術(shù)最新進展,以及智算中心全光交換可能的應(yīng)用場景。
AIGC數(shù)據(jù)中心發(fā)展趨勢和挑戰(zhàn)
在AIGC時代,數(shù)據(jù)中心光互聯(lián)面臨“兩高兩低”的挑戰(zhàn):高帶寬和高可靠性,以及低功耗和低時延。
高帶寬和高可靠性
隨著AI模型的不斷增大和復(fù)雜化,對數(shù)據(jù)傳輸速率的需求大幅增加。傳統(tǒng)的網(wǎng)絡(luò)架構(gòu)難以滿足這種高速傳輸?shù)囊,光互?lián)網(wǎng)絡(luò)則能夠提供所需的高帶寬,確保數(shù)據(jù)傳輸?shù)母咝。在AI訓(xùn)練過程中,任何網(wǎng)絡(luò)延遲或數(shù)據(jù)包丟失都會對訓(xùn)練效果產(chǎn)生重大影響。光互聯(lián)網(wǎng)絡(luò)需要具備高度的可靠性,以確保數(shù)據(jù)傳輸?shù)姆(wěn)定性和準(zhǔn)確性。
低功耗和低時延
當(dāng)前AI集群對能源的需求極其龐大,尤其是在大規(guī)模訓(xùn)練任務(wù)中,網(wǎng)絡(luò)設(shè)備(如光模塊和交換機)的功耗顯著增加。因此,需要通過新的技術(shù)和架構(gòu)來降低光互聯(lián)網(wǎng)絡(luò)的能耗。而低時延是AI集群高效運行的關(guān)鍵,特別是在大規(guī)模并行計算任務(wù)中,任何額外的延遲都會導(dǎo)致整體性能下降。
AI大模型參數(shù)規(guī)模演進
總的來說,AI集群在規(guī)模和靈活性上提出了新的要求。傳統(tǒng)的L1層(物理層)固定連接方式已無法滿足這種需求,而可重構(gòu)的光互聯(lián)網(wǎng)絡(luò)可以通過引入光開關(guān),實現(xiàn)AI集群的動態(tài)調(diào)整和靈活擴展。例如,谷歌的 PaLM 模型,在訓(xùn)練時被拆分到了兩個擁有 4000 塊 TPU 芯片的超級計算機上,用時50多天,任何設(shè)備故障都可能導(dǎo)致長時間的排查和修復(fù),而可重構(gòu)的光互聯(lián)網(wǎng)絡(luò)可以實現(xiàn)毫秒級的故障切換,大大提高系統(tǒng)的穩(wěn)定性和可靠性。
OCS全光交換在AIGC數(shù)據(jù)中心應(yīng)用
OCS(光路交換)技術(shù)近年來因谷歌的推動而備受關(guān)注,在數(shù)據(jù)中心中的應(yīng)用逐漸增多。相較于傳統(tǒng)的電交換,OCS在數(shù)據(jù)傳輸時具有低時延、低功耗和全光透明的優(yōu)勢,能夠適應(yīng)未來速率升級需求,實現(xiàn)多次速率升級的平滑過渡,降低運營成本。此外,OCS可在物理層實現(xiàn)可重構(gòu),適配不同訓(xùn)練任務(wù)的需求,提高網(wǎng)絡(luò)可靠性。
例如,NV公司在其AI服務(wù)器和Leaf之間引入OCS,實現(xiàn)故障保護和恢復(fù),大大縮短故障恢復(fù)時間。谷歌在其TPU v4和TPU v5網(wǎng)絡(luò)中也采用了OCS技術(shù),通過拓撲結(jié)構(gòu)的重構(gòu)提高性能和可用性。谷歌的研究表明,OCS在大規(guī)模集群中的引入,不僅能提升系統(tǒng)的可用性,還能優(yōu)化訓(xùn)練任務(wù)的性能。
Nvidia L1層動態(tài)可重構(gòu)大幅提升故障收斂時間:小時級->秒級
Google TPU V4 OCS互聯(lián)方案
OCS關(guān)鍵技術(shù)及應(yīng)用前景
當(dāng)前OCS的商用技術(shù)方案主要有DirectLight DBS技術(shù)和MEMS技術(shù)方案,基于MEMS技術(shù)的中小矩陣OCS已在數(shù)據(jù)中心光交換網(wǎng)絡(luò)中應(yīng)用,但隨著AI集群規(guī)模從千卡向萬卡乃至更大規(guī)模擴展,需要更大矩陣規(guī)模的OCS方案,對OCS的良率和可靠性提出了更高要求。而DirectLight DBS技術(shù)基于光束偏轉(zhuǎn)控制原理,通過動態(tài)光路調(diào)整實現(xiàn)光信號的交換,在大規(guī)模端口擴展中表現(xiàn)出優(yōu)異的可靠性和穩(wěn)定性,在大規(guī)模AI集群智算中心已開始應(yīng)用,未來前景廣闊。
DirectLight DBS —“直接光束偏轉(zhuǎn)”專利技術(shù)
最后,張華博士總結(jié)到,隨著HPC和數(shù)據(jù)中心規(guī)模日益增長,對功耗、時延、可靠性等要求越來越高,OCS全光交換方案可以很好適配這些需求,并且在以Google為代表的智算和數(shù)據(jù)中心已成功應(yīng)用。未來,隨著集群規(guī)模擴展,將需要更大端口OCS,配合OEO交換實現(xiàn)混合交換架構(gòu)!隨著數(shù)據(jù)中心OCS應(yīng)用將進一步下沉(Spine->Leaf),將需要更快切換速度、小端口低成本OCS的解決方案,以進一步提升數(shù)據(jù)中心的效率和性能。