2024/5/24 17:29

百度資深工程師周谞：大模型背后的數(shù)據(jù)中心光網(wǎng)絡(luò)演進

C114通信網(wǎng) 岳明

C114訊 5月24日消息（岳明）CIOE中國光博會與C114通信網(wǎng)昨日聯(lián)合舉辦的“2024中國光通信高質(zhì)量發(fā)展論壇”第四場研討會——“AI時代：數(shù)據(jù)中心光互聯(lián)技術(shù)新趨勢”正式上線。會議邀請電信運營商、互聯(lián)網(wǎng)服務(wù)商、云計算廠商、模塊芯片商、科研院所、業(yè)內(nèi)專家，深入探討光互聯(lián)和全光交換的應(yīng)用及其面臨的機遇和挑戰(zhàn)。

會上，百度資深工程師周谞?wèi)?yīng)邀作了題為《數(shù)據(jù)中心光通信技術(shù)趨勢》的主題演講，重點介紹了數(shù)據(jù)中心之間DCI光互聯(lián)、數(shù)據(jù)中心內(nèi)DCN光互聯(lián)，以及在現(xiàn)有大模型下，OTN與其結(jié)合等光通信技術(shù)問題。

從靈活系統(tǒng)到智能化運維，助力DCI光互聯(lián)

周谞表示，在數(shù)據(jù)中心之間DCI光互聯(lián)方面，城域單波傳輸技術(shù)大致每3~4年有一次迭代，從2017年至2019年的單波200G，波道間隔50GHz，到2020至2023年單波400G，波道間隔75GHz，到現(xiàn)在已經(jīng)到來的單波800G，波道間隔150GHz，單波速率的提升能帶來成本的降低，也存在速率迭代年限與機房系統(tǒng)使用年限不匹配的矛盾。傳統(tǒng)方案中，固定的間隔和限定速率，在應(yīng)用更新一代的單波傳輸技術(shù)時，使系統(tǒng)難以引入更高速率的電層板卡。

2023年，百度引入了FlexGrid系統(tǒng)，其靈活網(wǎng)格方案波道可變功能，取代傳統(tǒng)使用的固定間隔的AWG功能。靈活系統(tǒng)方案可以實現(xiàn)在無需改造條件下，適應(yīng)不同速率，實現(xiàn)400G和800G系統(tǒng)的平滑升級。根據(jù)場景，選擇最優(yōu)的速率，整個系統(tǒng)的頻譜得到更好利用，以期在2024年這一800G速率換代時期，取得更好的收益。

此外，隨著數(shù)據(jù)中心之間業(yè)務(wù)云化，以及云規(guī)模的日漸增大，同一云業(yè)務(wù)可能被部署在不同數(shù)據(jù)中心，這就對數(shù)據(jù)中心之間傳輸穩(wěn)定性提出更高要求。周谞表示，傳統(tǒng)傳輸系統(tǒng)保護倒換時間大致在50ms，這一時間在電信領(lǐng)域存在近20年，而通過高速磁光開關(guān)取代傳統(tǒng)的機械式光開關(guān)，及優(yōu)化DSP等，第一次實現(xiàn)了5ms高速保護倒換時間。同時，在設(shè)備出現(xiàn)業(yè)務(wù)中斷的情況下，通過傳輸設(shè)備主動介入技術(shù)，實現(xiàn)整體網(wǎng)絡(luò)的相對穩(wěn)定。

IP over WDM方面，隨著光子集成技術(shù)的發(fā)展，通過封裝技術(shù)實現(xiàn)光信號直接從交換機出來后具備長距離傳輸能力，改變傳統(tǒng)的需要額外電層設(shè)備完成線路到客戶的轉(zhuǎn)換過程。當(dāng)然，這需要IP+光統(tǒng)一網(wǎng)管協(xié)同，適用機房之間近距離傳輸。同時，這種相關(guān)光模塊對接上，測試中面臨著個別廠商模塊抗裂化能力差，不同廠商對接上的難題。

在傳輸?shù)倪\維和管理上，大部分現(xiàn)有廠商采用的是開放式光傳輸系統(tǒng)的方案，所有設(shè)備通過統(tǒng)一建模，完成設(shè)備與網(wǎng)管之間的交互，再通過統(tǒng)一的網(wǎng)管實現(xiàn)對所有設(shè)備的管理，提升自動化開發(fā)效率。從傳統(tǒng)運維，各廠商自己完成從網(wǎng)管到設(shè)備，到統(tǒng)一化運維，統(tǒng)一網(wǎng)管，統(tǒng)一運維培訓(xùn)體系，再到智能化運維，本質(zhì)上是為了更進一步提高效能。

CPO未來有可能成為GPU互聯(lián)的重要方案

周谞表示，在AI時代，整個數(shù)據(jù)中心內(nèi)部對光互聯(lián)的需求也非常大。HPN網(wǎng)絡(luò)主要是針對GPU訓(xùn)練集群的專門網(wǎng)絡(luò)，其里面存在多種訓(xùn)練方式，以實現(xiàn)不同GPU之間信息共享，而GPU 卡之間的通信帶寬速率的提升，會帶來訓(xùn)練時間的減少，以及成本的降低。但是大模型參數(shù)增長非�？�，數(shù)據(jù)中心內(nèi)光寬帶如何跟上節(jié)奏，成為非常重要的議題。以 IB/RoCE 為代表的跨GPU 服務(wù)器互聯(lián)技術(shù)，當(dāng)前速率在400G/800G時代，伴隨訓(xùn)練規(guī)模的變大和算力的提升，未來向1.6T及更高速率發(fā)展。雖然現(xiàn)有的交換機加光模塊形式能滿足一些需求，但卻面臨更大的成本和功耗壓力，這就引出了對線性直驅(qū)光模塊（LPO）的需求。

相比傳統(tǒng)光模塊，LPO將DSP功能集成到芯片中，降低了模塊的功耗和成本，具有良好的可維護性。當(dāng)然，除了傳統(tǒng)光模塊和線性直驅(qū)光模塊方案外，還有其他也有一些方案，比如聯(lián)合封裝技術(shù)（CPO）方案，其將光模塊功能集成到芯片上，因光子器件離芯片更近，可實現(xiàn)更低的功耗。隨著GPU互聯(lián)對功耗，帶寬的要求，CPO將有可能成為GPU互聯(lián)的一種重要方案。

OTN與大模型結(jié)合方面，百度建立了文心大模型，訓(xùn)練方式包括提示詞工程提高大模型喚起的準確率、更高級別的基于人類反饋的強化學(xué)習(xí)等，讓大模型更了解應(yīng)用場景。整個開發(fā)流程可以理解為，用自己的數(shù)據(jù)生成，注入到大模型訓(xùn)練，得到更理解應(yīng)用場景的一個大模型，比如OTN大模型，再把這個大模型部署到整個應(yīng)用環(huán)境中，去完成大模型推理等。

周谞表示，OTN和大語言模型的相互結(jié)合，是值得去關(guān)注的一個方向。因為傳統(tǒng)的運維更多的是基于GUI的界面，即圖形界面，隨著大語言模型的興起，其實可以很好的實現(xiàn)人機基于自然語言的對話，慢慢地可能會形成GUI和LUI，即圖形交互和自然語言交互的一個運維場景，得到更加懂我們的OTN大模型。

給作者點贊

0 VS 0

寫得不太好

版權(quán)說明：C114刊載的內(nèi)容，凡注明來源為“C114通信網(wǎng)”或“C114原創(chuàng)”皆屬C114版權(quán)所有，未經(jīng)允許禁止轉(zhuǎn)載、摘編，違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載我方內(nèi)容的單位，也必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標注作者信息和本站來源。編譯類文章僅出于傳遞更多信息之目的，不代表證實其描述或贊同其觀點；翻譯質(zhì)量問題請指正。

相關(guān)鏈接

OTN 運營商互聯(lián)網(wǎng)百度光通信

百度營銷全面接入DeepSeek，一鍵生成廣告創(chuàng)意、商家智能體交互再升級
C114通信網(wǎng) 2-28
免費用！文心智能體平臺全量上線DeepSeek滿血版
C114通信網(wǎng) 2-21
百度、OpenAI等大模型免費開放靠啥賺錢專家：三種盈利方式
快科技拾柒2-20
多項上榜！百度智能云客悅?cè)脒x沙利文AI Agent年度榜單
C114通信網(wǎng) 2-19