近期OCS被頻繁提起,美其名曰“光交換機(jī)”,似乎是有幾分要替代當(dāng)前在數(shù)據(jù)中心大量使用的以太電交換機(jī)的意味。
OCS全稱 Optical Circuit switch,光電路交換。等等,電路交換?這不是在通信領(lǐng)域早已經(jīng)被分組交換(Packet Switch)替代了的電路交換機(jī)嗎?這已經(jīng)是上個世紀(jì)的技術(shù)了,為什么加上個Optical就成新技術(shù)了呢?
上個世紀(jì)電路交換機(jī)和接線員(圖片來自網(wǎng)絡(luò))
如電路交換機(jī)相同,OCS提供的也是鏈路級的連接,只不過前者是電路,后者是光路。這就意味著,OCS在同一時間只能提供一個光口到另外一個光口的點到點連接,只不過這個連接關(guān)系可以按需動態(tài)調(diào)整,不需要接線員姑娘手動切換罷了。
說到這里各位小伙伴可能明白了,原來OCS就是自動光纖配線架(AODF,Automated Optical Distribution Frame)呀。沒錯,不管名字怎么變化(某些場景也被稱為OXC,Optical Cross-Connect)、光路切換實現(xiàn)技術(shù)如何,本質(zhì)上承擔(dān)的角色就是自動光配線架。
自動配線架和以太交換機(jī)打架,想要替代以太交換機(jī)?關(guān)鍵這兩個就不是同一類物種,怎么可能同臺競爭,這不是關(guān)公戰(zhàn)秦瓊嗎?
這里不妨盤一下OCS的老底。OCS在產(chǎn)業(yè)發(fā)聲,關(guān)鍵的幕后推手是Google。2022年,Google在SIGCOMM22的《Jupiter Evolving: Transforming Google’s Datacenter Network via Optical Circuit Switches and Software-Defined Networking》論文中,提到了在數(shù)據(jù)中心部署OCS/OXC的網(wǎng)絡(luò)方案,一時間引起了一片熱議之聲。Google作為帶頭大哥用了OCS似乎很有說服力,一幫小弟跟風(fēng)也可以理解。然而,Google使用OCS已經(jīng)多年,為什么業(yè)界到現(xiàn)在還沒有第二家部署呢?
本質(zhì)上還是OCS就是個升級版的光配線架,并不是什么交換機(jī)。Google花費了那么大的精力把OCS用了起來,還發(fā)了多篇論文,各位小弟仔細(xì)一讀論文,呵呵,你這走的明顯是邪路呀,基于流量調(diào)整通過OCS調(diào)整POD間的光纖數(shù)量,吹那么高大上,最終就是個這?我們不跟。
Meta甚至還發(fā)了篇論文,大概意思是要用自動光配線架,為什么不用機(jī)械自動配線架,插損小成本還低(成本這個是個玄學(xué),還是看有多少人用),不知道谷大哥看到有什么感想。
于是多年來Google一直孤獨的作為OCS的唯一用戶,在這條道路上一路狂奔。例如,為了解決OCS帶來的高插損(2dB)和長距離(沒有光電轉(zhuǎn)換,鏈路長度翻番)的問題,Google一直在用高成本的LR 10km模塊,并在業(yè)界呼吁增加FR 2km光模塊插損余量(當(dāng)然大家都不理他);另外還自己投資搞BiDi單纖雙向模塊(區(qū)別于雙纖雙向模塊),就為了減少OCS的端口占用。至于在數(shù)據(jù)中心內(nèi)大量使用的MPO口并纖模塊(500m DR和300m SR),Google更是連想也不用想了。
如果不是AI突然大火,OCS這東西也就停留在Google的Jupiter和其他大廠的實驗室里了。AI這一火,Google又發(fā)篇論文說我的TPU集群用了OCS。這下搞OCS的小伙伴們集體嗨起來了,原來我們這東西可以和AI扯上關(guān)系。AI一加持,就要站上了浪潮之巔了。
但是只要稍微了解TPU架構(gòu)的同學(xué)就一定會清楚,Google TPU用的是3D Torus互聯(lián)架構(gòu),也就是TPU組成3維的環(huán)網(wǎng),是一種無交換機(jī)的架構(gòu)。在這里面OCS起到的作用就是兩點:一、連接對應(yīng)的TPU端口,組成跨機(jī)柜的Torus;二、部分TPU故障時,繞過故障節(jié)點。這兩點又印證了一個事實,OCS完全就是一個自動光纖配線架(AODF)。
(Google Torus組網(wǎng),圖片來自于網(wǎng)絡(luò))
除了前面提到的OCS電路交換的本質(zhì)(無法替代分組交換)和插損(限制組網(wǎng)距離,或者大幅提升組網(wǎng)成本)外,OCS宣傳中經(jīng)常強調(diào)自己的切換時間很快,例如XX毫秒。但是這個XX毫秒是完全沒有意義的,因為每次切換就是一次光路的斷開重連,其兩端的網(wǎng)絡(luò)設(shè)備從物理層到網(wǎng)絡(luò)層各層都要重新協(xié)商,重新UP,重新及建立路由,這個時間都是秒級的,一定會造成網(wǎng)絡(luò)中斷。而且,因為OCS是一個電路交換機(jī),需要外部指令告訴OCS如何切換,這一點不像分組交換是報文自帶路由的,所以根本不可能做快速的切換。因此,業(yè)界使用OCS都是長周期的切換(小時、天、甚至周),基于長期流量需求做切換,并不需要OCS的快切換能力。
總結(jié)一下,OCS是一種電路交換機(jī),完全不具備替代分組交換機(jī)的可能,本質(zhì)上是一個AODF自動配線架。個人認(rèn)為,OCS如果要在DCN內(nèi)得到更廣泛的應(yīng)用,應(yīng)該瞄準(zhǔn)幾個方向:第一、降低插損,當(dāng)前插損太高嚴(yán)重限制了其應(yīng)用場景。第二、降低成本,畢竟AODF對手是低成本的ODF,加上個A(自動化)有價值,但不能太貴。第三、支持光纖盲插,AODF的A不應(yīng)該只是自動調(diào)纖,如果OCS可以識別每根光纖具體連接到了哪臺交換機(jī)的哪個端口,用戶只需要把光纖盲插到OCS上,然后通過控制OCS就可以完成交換機(jī)間的光纖連接,可能可以大幅提升AODF的價值。