作為人工智能的新引擎,AI大模型的商業(yè)價(jià)值日益凸顯。大模型訓(xùn)練需要海量計(jì)算資源,業(yè)界算卡集群正在從萬卡向十萬卡快速演進(jìn)。面對(duì)智算集群組網(wǎng)、能耗、效率等多重壓力,行業(yè)頭部廠商紛紛登場(chǎng),探索各種網(wǎng)絡(luò)技術(shù)創(chuàng)新的可能性。其中,MEMS OXC技術(shù)重出江湖,以“光電融合”為主題、“大規(guī)!薄ⅰ暗凸摹睘橘u點(diǎn)高調(diào)發(fā)聲,大有重定義下一代智算網(wǎng)絡(luò)之勢(shì),一時(shí)間引得吃瓜群眾不明覺厲。事實(shí)是否真是如此?筆者將從多個(gè)維度深度解析。
什么是OXC:通過光信號(hào)映射實(shí)現(xiàn)端口流量交換,本質(zhì)是自動(dòng)配線架
MEMS OXC的全稱為Micro-Electro-Mechanical System Optical Cross-Connect,指光交叉連接設(shè)備(下文簡(jiǎn)稱OXC)。OXC內(nèi)置兩個(gè)微鏡陣列,微鏡陣列1通過調(diào)整轉(zhuǎn)角將入射信號(hào)偏轉(zhuǎn)到微鏡陣列2對(duì)應(yīng)的微鏡單元,將光從入端口映射到出端口,從而實(shí)現(xiàn)這兩條路徑之間的光信號(hào)交換。
OXC工作原理,圖片來自于網(wǎng)絡(luò)
需要注意的是,OXC只是對(duì)跨電交換機(jī)流量進(jìn)行端口級(jí)的流量引導(dǎo)和切換,并不參與全局選路、優(yōu)先級(jí)調(diào)度等流量工程。因此從本質(zhì)上來說,OXC充當(dāng)?shù)氖亲詣?dòng)ODF(Optical Distribution Frame)配線架或一組點(diǎn)到點(diǎn)光纖的角色。
為什么引入OXC:減少電交換機(jī)和光模塊,理論上功耗收益明顯
當(dāng)前兩層或三層胖樹(Fat tree)組網(wǎng)方案是業(yè)界主流,均采用電交換機(jī)組網(wǎng)。當(dāng)組網(wǎng)從兩層向三層擴(kuò)展時(shí),網(wǎng)絡(luò)設(shè)備需在Leaf層、Spine層之外增加Core層。Spine層和Core層之間需要通過光模塊互聯(lián),電交換機(jī)和光模塊數(shù)量的增加帶來整體能耗的上升。
此時(shí)如果Core層部署OXC光設(shè)備實(shí)現(xiàn)Spine間互聯(lián),使用光設(shè)備替代電交換機(jī),則理論上可緩解上述能耗問題。
看上去很美的OXC,市場(chǎng)商用卻遭遇滑鐵盧
在降能耗的商業(yè)驅(qū)動(dòng)下,OXC技術(shù)被抬上了桌面,業(yè)界甚至大膽預(yù)測(cè)OXC在未來會(huì)取代電交換機(jī)。早在2010年,SIGCOMM上刊登了《Helios:A Hybrid Electrical/Optical Switch Architecture for Modular Data Centers》的技術(shù)論文,探索光電混合架構(gòu)的技術(shù)可行性。 2022年,Google發(fā)布了OXC在云網(wǎng)絡(luò)和自研TPU集群應(yīng)用的技術(shù)論文。2023年,Nvidia先后在HOT Interconnects和光網(wǎng)絡(luò)與通信研究會(huì)及博覽會(huì)(OFC)學(xué)術(shù)會(huì)議上分享了其對(duì)光電融合組網(wǎng)的思考。
雖然業(yè)界對(duì)光電融合組網(wǎng)的討論仍在繼續(xù),然而,十幾年過去了,全球目前有且僅有Google一家廠商依托光電全棧研發(fā)能力實(shí)現(xiàn)了OXC在通算業(yè)務(wù)場(chǎng)景下Fat Tree架構(gòu)的試點(diǎn),智算場(chǎng)景Fat Tree架構(gòu)下OXC商用業(yè)界仍為空白。
為什么會(huì)出現(xiàn)理論火熱,現(xiàn)實(shí)慘淡的現(xiàn)象?筆者認(rèn)為,智算場(chǎng)景Fat Tree架構(gòu)下引入OXC目前存在三大技術(shù)瓶頸。
OXC技術(shù)瓶頸1:無策略調(diào)度,不能根據(jù)靈活拓?fù)?/STRONG>動(dòng)態(tài)適配
由于OXC只是對(duì)端口進(jìn)行映射,從交換機(jī)的角度來看,等價(jià)于ODF或者是光纖直連。因此當(dāng)OXC將電交換機(jī)替換后,會(huì)導(dǎo)致原來標(biāo)準(zhǔn)的Leaf-Spine-Core的胖樹組網(wǎng)架構(gòu)變化,成為Spine直連,且邏輯拓?fù)鋭?dòng)態(tài)變化。
引入OXC后需要電交換機(jī)針對(duì)這種動(dòng)態(tài)組網(wǎng)進(jìn)行深度配合,路由協(xié)議、擁塞調(diào)度、負(fù)載均衡等策略均需要重新適配。當(dāng)OXC調(diào)整連接關(guān)系后,組網(wǎng)拓?fù)潆S之發(fā)生變化(見下圖),交換機(jī)能否自動(dòng)感知并進(jìn)行實(shí)時(shí)調(diào)優(yōu)是核心技術(shù)難點(diǎn)之一。
同時(shí),由于OXC采用“轉(zhuǎn)鏡子”的機(jī)械控制方式,同一時(shí)間只能完成一組端口間點(diǎn)對(duì)點(diǎn)轉(zhuǎn)發(fā),無法支撐智算場(chǎng)景多組流量并行轉(zhuǎn)發(fā)的需求,形成性能瓶頸。
OXC技術(shù)瓶頸2:高時(shí)延,不支持智算集合通信關(guān)系靈活調(diào)整
隨著模型從稠密到稀疏,集群并行模式多樣化,集合通信庫的算子和算法也隨之多樣化。主要通信算子包括AllReduce, ReduceScater,AllGather,All2All等;每個(gè)通信算子又可以有不同的通信算法,例如ring,tree,butterfly等等。不同的算法和算子下通信關(guān)系差別巨大(見下圖),這就要求整網(wǎng)通信鏈路能夠根據(jù)需要隨時(shí)快速調(diào)整互通關(guān)系。
算法通信模式對(duì)比,圖片來自于網(wǎng)絡(luò)
如前邊提到,由于OXC微鏡陣列的轉(zhuǎn)動(dòng)等過程依賴物理機(jī)械控制,OXC的交換時(shí)延在10毫秒以上,與電交換機(jī)的百納秒時(shí)延相比,高出了五個(gè)量級(jí)。即使OXC的路徑切換時(shí)延縮短到微秒級(jí)甚至納秒級(jí),由于整網(wǎng)存在端口斷開和重新連接,光模塊、電交換機(jī)側(cè)需要重新協(xié)商和路由收斂,整網(wǎng)的切換和連通時(shí)間也在秒級(jí)以上,完全無法滿足智算場(chǎng)景大流量高吞吐的網(wǎng)絡(luò)需求。不僅如此,OXC內(nèi)光鏈路的切換嚴(yán)重依賴控制面的任務(wù)信息作為輸入,如何獲取這些任務(wù)信息,誰來給出切換指令,當(dāng)前業(yè)界廠商相關(guān)技術(shù)介紹中均為空白。
OXC技術(shù)瓶頸3:高插損,長(zhǎng)距光模塊成本數(shù)倍于電交換
萬卡集群可能涉及跨機(jī)房走線,電交換機(jī)間互聯(lián)一般使用2km FR光模塊即可。如果引入OXC通過反射陣列對(duì)光路進(jìn)行調(diào)整,會(huì)帶來額外的光傳輸損耗,需要使用更長(zhǎng)距的光模塊,否則可能導(dǎo)致鏈路信號(hào)不穩(wěn)定,引發(fā)訓(xùn)練中斷。
以Google為例,即使OXC插損做到了業(yè)界最低1.5dB,設(shè)備間互聯(lián)也需要使用10km LR定制光模塊,成本是2km光模塊的3~5倍。根據(jù)業(yè)界推測(cè),引入OXC的前期成本約為電交換機(jī)的3-6倍,OXC帶來的功耗和成本優(yōu)勢(shì)并不顯著。
最近國內(nèi)某廠家發(fā)布了OXC全光DCN交換機(jī),根據(jù)筆者初步評(píng)估,綜合技術(shù)和成本分析無法替代國內(nèi)廠商三層白盒交換機(jī)。
總結(jié):光電混合組網(wǎng)只是概念股,OXC商用前景并不樂觀
當(dāng)前,國內(nèi)產(chǎn)業(yè)圈子OXC呼聲高漲,引發(fā)了不少關(guān)注。然而,所有的變革都需要深思熟慮,過度炒作只會(huì)掩蓋真正的問題。
如果OXC做核心層設(shè)備,整網(wǎng)控制面需要以AI訓(xùn)練任務(wù)信息作為輸入進(jìn)行光電統(tǒng)一調(diào)度。OXC交換帶來網(wǎng)絡(luò)拓?fù)鋭?dòng)態(tài)調(diào)整,網(wǎng)絡(luò)的負(fù)載均衡、流量調(diào)度嚴(yán)重依賴電交換機(jī)側(cè)的配合和協(xié)同。除此之外,OXC設(shè)備本身還要攻克時(shí)延、插損等一系列技術(shù)難題。智算場(chǎng)景下多種技術(shù)挑戰(zhàn)疊加,OXC進(jìn)入DCN還存在較大的差距,產(chǎn)業(yè)各方仍需正視挑戰(zhàn),繼續(xù)努力。