C114通信網(wǎng)  |  通信人家園

專題
2024/5/24 17:29

百度資深工程師周谞:大模型背后的數(shù)據(jù)中心光網(wǎng)絡(luò)演進

C114通信網(wǎng)  岳明

C114訊 5月24日消息(岳明)CIOE中國光博會與C114通信網(wǎng)昨日聯(lián)合舉辦的“2024中國光通信高質(zhì)量發(fā)展論壇”第四場研討會——“AI時代:數(shù)據(jù)中心光互聯(lián)技術(shù)新趨勢”正式上線。會議邀請電信運營商、互聯(lián)網(wǎng)服務(wù)商、云計算廠商、模塊芯片商、科研院所、業(yè)內(nèi)專家,深入探討光互聯(lián)和全光交換的應(yīng)用及其面臨的機遇和挑戰(zhàn)。

會上,百度資深工程師周谞?wèi)?yīng)邀作了題為《數(shù)據(jù)中心光通信技術(shù)趨勢》的主題演講,重點介紹了數(shù)據(jù)中心之間DCI光互聯(lián)、數(shù)據(jù)中心內(nèi)DCN光互聯(lián),以及在現(xiàn)有大模型下,OTN與其結(jié)合等光通信技術(shù)問題。

從靈活系統(tǒng)到智能化運維,助力DCI光互聯(lián)

周谞表示,在數(shù)據(jù)中心之間DCI光互聯(lián)方面,城域單波傳輸技術(shù)大致每3~4年有一次迭代,從2017年至2019年的單波200G,波道間隔50GHz,到2020至2023年單波400G,波道間隔75GHz,到現(xiàn)在已經(jīng)到來的單波800G,波道間隔150GHz,單波速率的提升能帶來成本的降低,也存在速率迭代年限與機房系統(tǒng)使用年限不匹配的矛盾。傳統(tǒng)方案中,固定的間隔和限定速率,在應(yīng)用更新一代的單波傳輸技術(shù)時,使系統(tǒng)難以引入更高速率的電層板卡。

2023年,百度引入了FlexGrid系統(tǒng),其靈活網(wǎng)格方案波道可變功能,取代傳統(tǒng)使用的固定間隔的AWG功能。靈活系統(tǒng)方案可以實現(xiàn)在無需改造條件下,適應(yīng)不同速率,實現(xiàn)400G和800G系統(tǒng)的平滑升級。根據(jù)場景,選擇最優(yōu)的速率,整個系統(tǒng)的頻譜得到更好利用,以期在2024年這一800G速率換代時期,取得更好的收益。

此外,隨著數(shù)據(jù)中心之間業(yè)務(wù)云化,以及云規(guī)模的日漸增大,同一云業(yè)務(wù)可能被部署在不同數(shù)據(jù)中心,這就對數(shù)據(jù)中心之間傳輸穩(wěn)定性提出更高要求。周谞表示,傳統(tǒng)傳輸系統(tǒng)保護倒換時間大致在50ms,這一時間在電信領(lǐng)域存在近20年,而通過高速磁光開關(guān)取代傳統(tǒng)的機械式光開關(guān),及優(yōu)化DSP等,第一次實現(xiàn)了5ms高速保護倒換時間。同時,在設(shè)備出現(xiàn)業(yè)務(wù)中斷的情況下,通過傳輸設(shè)備主動介入技術(shù),實現(xiàn)整體網(wǎng)絡(luò)的相對穩(wěn)定。

IP over WDM方面,隨著光子集成技術(shù)的發(fā)展,通過封裝技術(shù)實現(xiàn)光信號直接從交換機出來后具備長距離傳輸能力,改變傳統(tǒng)的需要額外電層設(shè)備完成線路到客戶的轉(zhuǎn)換過程。當(dāng)然,這需要IP+光統(tǒng)一網(wǎng)管協(xié)同,適用機房之間近距離傳輸。同時,這種相關(guān)光模塊對接上,測試中面臨著個別廠商模塊抗裂化能力差,不同廠商對接上的難題。

在傳輸?shù)倪\維和管理上,大部分現(xiàn)有廠商采用的是開放式光傳輸系統(tǒng)的方案,所有設(shè)備通過統(tǒng)一建模,完成設(shè)備與網(wǎng)管之間的交互,再通過統(tǒng)一的網(wǎng)管實現(xiàn)對所有設(shè)備的管理,提升自動化開發(fā)效率。從傳統(tǒng)運維,各廠商自己完成從網(wǎng)管到設(shè)備,到統(tǒng)一化運維,統(tǒng)一網(wǎng)管,統(tǒng)一運維培訓(xùn)體系,再到智能化運維,本質(zhì)上是為了更進一步提高效能。

CPO未來有可能成為GPU互聯(lián)重要方案

周谞表示,在AI時代,整個數(shù)據(jù)中心內(nèi)部對光互聯(lián)的需求也非常大。HPN網(wǎng)絡(luò)主要是針對GPU訓(xùn)練集群的專門網(wǎng)絡(luò),其里面存在多種訓(xùn)練方式,以實現(xiàn)不同GPU之間信息共享,而GPU 卡之間的通信帶寬速率的提升,會帶來訓(xùn)練時間的減少,以及成本的降低。但是大模型參數(shù)增長非?,數(shù)據(jù)中心內(nèi)光寬帶如何跟上節(jié)奏,成為非常重要的議題。以 IB/RoCE 為代表的跨GPU 服務(wù)器互聯(lián)技術(shù),當(dāng)前速率在400G/800G時代,伴隨訓(xùn)練規(guī)模的變大和算力的提升,未來向1.6T及更高速率發(fā)展。雖然現(xiàn)有的交換機加光模塊形式能滿足一些需求,但卻面臨更大的成本和功耗壓力,這就引出了對線性直驅(qū)光模塊(LPO)的需求。

相比傳統(tǒng)光模塊,LPO將DSP功能集成到芯片中,降低了模塊的功耗和成本,具有良好的可維護性。當(dāng)然,除了傳統(tǒng)光模塊和線性直驅(qū)光模塊方案外,還有其他也有一些方案,比如聯(lián)合封裝技術(shù)(CPO)方案,其將光模塊功能集成到芯片上,因光子器件離芯片更近,可實現(xiàn)更低的功耗。隨著GPU互聯(lián)對功耗,帶寬的要求,CPO將有可能成為GPU互聯(lián)的一種重要方案。

OTN與大模型結(jié)合方面,百度建立了文心大模型,訓(xùn)練方式包括提示詞工程提高大模型喚起的準確率、更高級別的基于人類反饋的強化學(xué)習(xí)等,讓大模型更了解應(yīng)用場景。整個開發(fā)流程可以理解為,用自己的數(shù)據(jù)生成,注入到大模型訓(xùn)練,得到更理解應(yīng)用場景的一個大模型,比如OTN大模型,再把這個大模型部署到整個應(yīng)用環(huán)境中,去完成大模型推理等。

周谞表示,OTN和大語言模型的相互結(jié)合,是值得去關(guān)注的一個方向。因為傳統(tǒng)的運維更多的是基于GUI的界面,即圖形界面,隨著大語言模型的興起,其實可以很好的實現(xiàn)人機基于自然語言的對話,慢慢地可能會形成GUI和LUI,即圖形交互和自然語言交互的一個運維場景,得到更加懂我們的OTN大模型。

給作者點贊
0 VS 0
寫得不太好

版權(quán)說明:C114刊載的內(nèi)容,凡注明來源為“C114通信網(wǎng)”或“C114原創(chuàng)”皆屬C114版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位,也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標注作者信息和本站來源。編譯類文章僅出于傳遞更多信息之目的,不代表證實其描述或贊同其觀點;翻譯質(zhì)量問題請指正。

熱門文章
    最新視頻
    為您推薦

      C114簡介 | 聯(lián)系我們 | 網(wǎng)站地圖 | 手機版

      Copyright©1999-2025 c114 All Rights Reserved | 滬ICP備12002291號

      C114 通信網(wǎng) 版權(quán)所有 舉報電話:021-54451141