隨著大模型興起,AI技術(shù)如潮水般涌入千行萬業(yè)。國內(nèi)對于智能計(jì)算的AI訓(xùn)練熱情也是空前高漲,智算集群基礎(chǔ)設(shè)施,如雨后春筍般涌現(xiàn)。未來AI訓(xùn)練模型和數(shù)據(jù)量將加速增長,集群規(guī)模也將從萬卡向十萬卡規(guī)模演進(jìn),但是新的問題又誕生了。
智算集群規(guī)模的迅速擴(kuò)張,讓交換機(jī)的傳統(tǒng)組網(wǎng)架構(gòu)“犯了難”。一方面電交換技術(shù)應(yīng)用廣泛,需要不斷提升性能。另一方面,業(yè)界小眾圈子提出 MEMS OXC 光交換技術(shù)思路,但在筆者看來,MEMS OXC 在技術(shù)層面有難以回避的問題,它并非電交換技術(shù)的“一鍵替換”選項(xiàng),業(yè)界需冷靜評估。
集群規(guī)模擴(kuò)張,挑戰(zhàn)接踵而至
智能時(shí)代,算力先行。在AI大模型驅(qū)動下,國產(chǎn)算力需求過去一年經(jīng)歷了爆發(fā)式增長。根據(jù)工信部數(shù)據(jù)顯示,截至2024年6月,我國算力總規(guī)模達(dá)246 EFLOPS(每秒百億億次浮點(diǎn)運(yùn)算次數(shù)),位居世界第二,智能算力的同比增速更是超過了驚人的65%。
我們看到,科技巨頭、運(yùn)營商以及云服務(wù)商紛紛加速布局智算集群,搶抓大模型帶來的發(fā)展機(jī)遇。例如,中國移動智算中心(哈爾濱)在近日正式投產(chǎn)使用,該智算中心可以提供高達(dá)6.9EFLOPS智能算力,也是全球運(yùn)營商最大單集群智算中心。
隨著AI大模型參數(shù)量級呈指數(shù)型增長,未來的集群規(guī)模勢必越來越大。根據(jù)華為發(fā)布的《智能世界2030》來看,預(yù)計(jì)到2030年,將出現(xiàn)參數(shù)規(guī)模達(dá)到人腦突觸連接數(shù)級別的大型模型,參數(shù)量將達(dá)到百萬億到千萬億之間,推動集群規(guī)模從目前的十萬卡集群擴(kuò)展到百萬卡集群,以支持這些龐大模型的訓(xùn)練和推理任務(wù)。
在龐大的智算集群中,交換機(jī)承擔(dān)著數(shù)據(jù)通信中樞、流量管理與負(fù)載均衡多項(xiàng)功能,其作用不可小覷。在上述演進(jìn)過程中,當(dāng)前交換機(jī)網(wǎng)絡(luò)基于兩層的Spine-Leaf架構(gòu),行業(yè)能力基本只局限于幾萬卡規(guī)模,若要實(shí)現(xiàn)十萬卡規(guī)模,則需升級到三層架構(gòu)。
對于新增的這層架構(gòu),應(yīng)該使用電交換還是光交換,在業(yè)界引起了廣泛的討論。
電交換應(yīng)用廣泛,積極探索極簡架構(gòu)
電交換系統(tǒng)堪稱大規(guī)模智算集群中的核心組件,何謂電交換技術(shù)?簡單來說,在通信需求產(chǎn)生時(shí),電交換系統(tǒng)可以為通信雙方建立一條專屬的物理通路,保障數(shù)據(jù)傳輸?shù)莫?dú)占性和實(shí)時(shí)性。當(dāng)通信結(jié)束后,電交換系統(tǒng)及時(shí)釋放這條通路,以確保數(shù)據(jù)高效、有序流動。
電交換技術(shù)得益于顯著的靈活性、低時(shí)延以及成熟的生態(tài)體系,在智算集群中得到廣泛應(yīng)用。
首先,電交換技術(shù)的高靈活性使得系統(tǒng)能夠根據(jù)實(shí)際需求動態(tài)調(diào)整通信資源,滿足智算集群中復(fù)雜多變的通信需求;其次,電交換技術(shù)的低時(shí)延特性確保了數(shù)據(jù)傳輸?shù)膶?shí)時(shí)性,對于需要快速響應(yīng)的應(yīng)用場景最為重要;最后,電交換技術(shù)擁有完善的生態(tài)體系,能夠與其他系統(tǒng)和設(shè)備兼容,降低了智算集群的部署難度和成本。
電交換技術(shù)在智算集群中的部署也有新的挑戰(zhàn),隨著集群規(guī)模持續(xù)擴(kuò)張,其面臨的新的升級需求愈發(fā)顯著。當(dāng)集群規(guī)模突破兩層Clos架構(gòu)支持的最大規(guī)模后,需要擴(kuò)展到三層Clos架構(gòu),設(shè)備數(shù)量和模塊數(shù)量增加,管理和網(wǎng)絡(luò)調(diào)度也更加復(fù)雜。業(yè)界部分交換機(jī)廠商也在積極探索更加高效的架構(gòu)如Dragonfly+,來簡化網(wǎng)絡(luò)架構(gòu),降低成本和能耗。
MEMS OXC技術(shù)缺陷明顯,不具備商用條件
與此同時(shí),業(yè)界提出光交換技術(shù),并在市場嶄露頭角。光交換技術(shù)也稱微機(jī)電系統(tǒng)光交叉連接技術(shù),縮寫為“MEMS OXC”。MEMS OXC就像是光網(wǎng)絡(luò)中的“智能交通指揮系統(tǒng)”,通過精密的微機(jī)械鏡片陣列,靈活調(diào)整光路徑,實(shí)現(xiàn)光信號在不同光纖間的準(zhǔn)確切換。
簡單來說,MEMS OXC的本質(zhì)是自動配線架,二者孰優(yōu)孰劣?從下方表格可以看出,MEMS-OXC與自動配線架雖然都具有一定的自動化程度,但在靈活性和可編程性方面,MEMS-OXC明顯優(yōu)于自動配線架。因此,在需要高度靈活性和可編程性的場景中,如大型數(shù)據(jù)中心、云計(jì)算平臺以及高速通信網(wǎng)絡(luò)等,MEMS-OXC是更為合適的選擇。
任何技術(shù)的發(fā)展都伴隨著挑戰(zhàn),MEMS OXC也不例外,但是業(yè)界分析較少。我們調(diào)研了解到,全網(wǎng)負(fù)載均衡、高時(shí)延以及較高的插入損耗,是MEMS OXC當(dāng)前面臨的主要難題。
以全網(wǎng)負(fù)載均衡為例,由于光網(wǎng)絡(luò)流量的動態(tài)變化,如何確保各節(jié)點(diǎn)間的負(fù)載均勻分布,避免局部過載,成為技術(shù)突破的關(guān)鍵。這一難點(diǎn)的根源在于光信號的物理特性及網(wǎng)絡(luò)拓?fù)涞膹?fù)雜性,使得實(shí)時(shí)、精確的負(fù)載均衡策略設(shè)計(jì)變得極為復(fù)雜。
客觀來講,MEMS OXC技術(shù)的應(yīng)用,目前仍處于初級階段,前景尚不明朗,具體來說:
其一:功能局限性。MEMS OXC本質(zhì)上是一種自動配線架設(shè)備,缺乏靈活的通信轉(zhuǎn)發(fā)功能,其所有通信任務(wù)均需依賴交換機(jī)來實(shí)現(xiàn),因此在數(shù)據(jù)傳輸?shù)撵`活性和效率上存在局限;
其二:技術(shù)與商用成熟度不足。引入MEMS OXC后,對于智算組網(wǎng)的規(guī)模擴(kuò)展、功耗控制、可靠性提升以及技術(shù)演進(jìn)等方面均未帶來任何實(shí)質(zhì)性的改善。此外,MEMS OXC在硬件與軟件層面均存在顯著的技術(shù)缺陷,目前尚不具備投入商業(yè)應(yīng)用的條件;
其三:市場應(yīng)用有限。當(dāng)前業(yè)界僅Google一家商用MEMS OXC設(shè)備。一方面,Google的DCN大網(wǎng)用OXC核心目的是多代兼容,首次投資成本推測2-5倍于電交換機(jī)。另一方面,Google的TPU集群用OXC的核心目的是解決Torus拓?fù)涞目捎枚葐栴}。
你是否也好奇,業(yè)界為何僅谷歌一家商用MEMS OXC設(shè)備?在筆者看來,谷歌作為全球領(lǐng)先的科技企業(yè),在數(shù)據(jù)中心建設(shè)和運(yùn)維方面積累了豐富的經(jīng)驗(yàn)和技術(shù)實(shí)力,其選擇MEMS OXC作為核心交換技術(shù)也是基于多代兼容和解決拓?fù)鋯栴}。
但這一考慮并非放諸四海而皆準(zhǔn),從宏觀來講,MEMS OXC技術(shù)成熟度不足導(dǎo)致其他企業(yè)難以快速跟進(jìn),同時(shí)高昂的投資成本和復(fù)雜的運(yùn)維管理也限制了MEMS OXC技術(shù)應(yīng)用。
根據(jù)LightCounting預(yù)測,預(yù)計(jì)到2029年,隨著技術(shù)成熟與成本降低,MEMS OXC的全球市場空間約為5億美元,其中大部分是google,但其產(chǎn)業(yè)規(guī)模僅為電交換的1/20。這一數(shù)據(jù)說明了MEMS OXC要想從實(shí)驗(yàn)室走向大規(guī)模商用,仍需克服諸多技術(shù)挑戰(zhàn)和市場障礙,道路任重而道遠(yuǎn)。
綜上所述,雖然MEMS OXC技術(shù)雖然被寄予厚望,但在技術(shù)層面,全網(wǎng)負(fù)載均衡是其難以回避的問題,在市場應(yīng)用層面,其商用化進(jìn)程也較為緩慢。整體進(jìn)行評估,MEMS OXC的技術(shù)成熟度仍顯不足,產(chǎn)業(yè)需要保持清醒的頭腦。
因此,在探討智算集群規(guī)模擴(kuò)張下的技術(shù)抉擇時(shí),我們必須明確一點(diǎn):光交叉技術(shù)(MEMS OXC)并非電交換技術(shù)的直接替代者,更非當(dāng)前光電融合技術(shù)的完美實(shí)現(xiàn)。對于最終客戶而言,當(dāng)下電交換依然是主流,是更為可靠的方式。