首頁|必讀|視頻|專訪|運(yùn)營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|元宇宙|博客|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁 >> 移動(dòng)互聯(lián)網(wǎng) >> 正文

是新晉網(wǎng)紅還是概念炒作?智算場(chǎng)景OXC深度解析

2024年9月30日 17:14  CCTIME飛象網(wǎng)  

作為人工智能的新引擎,AI大模型的商業(yè)價(jià)值日益凸顯。大模型訓(xùn)練需要海量計(jì)算資源,業(yè)界算卡集群正在從萬卡向十萬卡快速演進(jìn)。面對(duì)智算集群組網(wǎng)、能耗、效率等多重壓力,行業(yè)頭部廠商紛紛登場(chǎng),探索各種網(wǎng)絡(luò)技術(shù)創(chuàng)新的可能性。其中,MEMS OXC技術(shù)重出江湖,以“光電融合”為主題、“大規(guī)!薄ⅰ暗凸摹睘橘u點(diǎn)高調(diào)發(fā)聲,大有重定義下一代智算網(wǎng)絡(luò)之勢(shì),一時(shí)間引得吃瓜群眾不明覺厲。事實(shí)是否真是如此?筆者將從多個(gè)維度深度解析。

什么是OXC通過光信號(hào)映射實(shí)現(xiàn)端口流量交換,本質(zhì)是自動(dòng)配線架

MEMS OXC的全稱為Micro-Electro-Mechanical System Optical Cross-Connect,指光交叉連接設(shè)備(下文簡(jiǎn)稱OXC)。OXC內(nèi)置兩個(gè)微鏡陣列,微鏡陣列1通過調(diào)整轉(zhuǎn)角將入射信號(hào)偏轉(zhuǎn)到微鏡陣列2對(duì)應(yīng)的微鏡單元,將光從入端口映射到出端口,從而實(shí)現(xiàn)這兩條路徑之間的光信號(hào)交換。

OXC工作原理,圖片來自于網(wǎng)絡(luò)

需要注意的是,OXC只是對(duì)跨電交換機(jī)流量進(jìn)行端口級(jí)的流量引導(dǎo)和切換,并不參與全局選路、優(yōu)先級(jí)調(diào)度等流量工程。因此從本質(zhì)上來說,OXC充當(dāng)?shù)氖亲詣?dòng)ODF(Optical Distribution Frame)配線架或一組點(diǎn)到點(diǎn)光纖的角色。

為什么引入OXC:減少交換機(jī)和光模塊,理論上功耗收益明顯

當(dāng)前兩層或三層胖樹(Fat tree)組網(wǎng)方案是業(yè)界主流,均采用電交換機(jī)組網(wǎng)。當(dāng)組網(wǎng)從兩層向三層擴(kuò)展時(shí),網(wǎng)絡(luò)設(shè)備需在Leaf層、Spine層之外增加Core層。Spine層和Core層之間需要通過光模塊互聯(lián),電交換機(jī)和光模塊數(shù)量的增加帶來整體能耗的上升。

此時(shí)如果Core層部署OXC光設(shè)備實(shí)現(xiàn)Spine間互聯(lián),使用光設(shè)備替代電交換機(jī),則理論上可緩解上述能耗問題。

看上去很美的OXC,市場(chǎng)商用遭遇滑鐵盧

在降能耗的商業(yè)驅(qū)動(dòng)下,OXC技術(shù)被抬上了桌面,業(yè)界甚至大膽預(yù)測(cè)OXC在未來會(huì)取代電交換機(jī)。早在2010年,SIGCOMM上刊登了《Helios:A Hybrid Electrical/Optical Switch Architecture for Modular Data Centers》的技術(shù)論文,探索光電混合架構(gòu)的技術(shù)可行性。 2022年,Google發(fā)布了OXC在云網(wǎng)絡(luò)和自研TPU集群應(yīng)用的技術(shù)論文。2023年,Nvidia先后在HOT Interconnects和光網(wǎng)絡(luò)與通信研究會(huì)及博覽會(huì)(OFC)學(xué)術(shù)會(huì)議上分享了其對(duì)光電融合組網(wǎng)的思考。

雖然業(yè)界對(duì)光電融合組網(wǎng)的討論仍在繼續(xù),然而,十幾年過去了,全球目前有且僅有Google一家廠商依托光電全棧研發(fā)能力實(shí)現(xiàn)了OXC在通算業(yè)務(wù)場(chǎng)景下Fat Tree架構(gòu)的試點(diǎn),智算場(chǎng)景Fat Tree架構(gòu)下OXC商用業(yè)界仍為空白。

為什么會(huì)出現(xiàn)理論火熱,現(xiàn)實(shí)慘淡的現(xiàn)象?筆者認(rèn)為,智算場(chǎng)景Fat Tree架構(gòu)下引入OXC目前存在三大技術(shù)瓶頸。

OXC技術(shù)瓶頸1策略調(diào)度,不能根據(jù)靈活拓?fù)?/STRONG>動(dòng)態(tài)適配

由于OXC只是對(duì)端口進(jìn)行映射,從交換機(jī)的角度來看,等價(jià)于ODF或者是光纖直連。因此當(dāng)OXC將電交換機(jī)替換后,會(huì)導(dǎo)致原來標(biāo)準(zhǔn)的Leaf-Spine-Core的胖樹組網(wǎng)架構(gòu)變化,成為Spine直連,且邏輯拓?fù)鋭?dòng)態(tài)變化。

引入OXC后需要電交換機(jī)針對(duì)這種動(dòng)態(tài)組網(wǎng)進(jìn)行深度配合,路由協(xié)議、擁塞調(diào)度、負(fù)載均衡等策略均需要重新適配。當(dāng)OXC調(diào)整連接關(guān)系后,組網(wǎng)拓?fù)潆S之發(fā)生變化(見下圖),交換機(jī)能否自動(dòng)感知并進(jìn)行實(shí)時(shí)調(diào)優(yōu)是核心技術(shù)難點(diǎn)之一。

同時(shí),由于OXC采用“轉(zhuǎn)鏡子”的機(jī)械控制方式,同一時(shí)間只能完成一組端口間點(diǎn)對(duì)點(diǎn)轉(zhuǎn)發(fā),無法支撐智算場(chǎng)景多組流量并行轉(zhuǎn)發(fā)的需求,形成性能瓶頸。

OXC技術(shù)瓶頸2時(shí)延,支持智算集合通信關(guān)系靈活調(diào)整

隨著模型從稠密到稀疏,集群并行模式多樣化,集合通信庫的算子和算法也隨之多樣化。主要通信算子包括AllReduce, ReduceScater,AllGather,All2All等;每個(gè)通信算子又可以有不同的通信算法,例如ring,tree,butterfly等等。不同的算法和算子下通信關(guān)系差別巨大(見下圖),這就要求整網(wǎng)通信鏈路能夠根據(jù)需要隨時(shí)快速調(diào)整互通關(guān)系。

算法通信模式對(duì)比,圖片來自于網(wǎng)絡(luò)

如前邊提到,由于OXC微鏡陣列的轉(zhuǎn)動(dòng)等過程依賴物理機(jī)械控制,OXC的交換時(shí)延在10毫秒以上,與電交換機(jī)的百納秒時(shí)延相比,高出了五個(gè)量級(jí)。即使OXC的路徑切換時(shí)延縮短到微秒級(jí)甚至納秒級(jí),由于整網(wǎng)存在端口斷開和重新連接,光模塊、電交換機(jī)側(cè)需要重新協(xié)商和路由收斂,整網(wǎng)的切換和連通時(shí)間也在秒級(jí)以上,完全無法滿足智算場(chǎng)景大流量高吞吐的網(wǎng)絡(luò)需求。不僅如此,OXC內(nèi)光鏈路的切換嚴(yán)重依賴控制面的任務(wù)信息作為輸入,如何獲取這些任務(wù)信息,誰來給出切換指令,當(dāng)前業(yè)界廠商相關(guān)技術(shù)介紹中均為空白。

OXC技術(shù)瓶頸3高插損,長(zhǎng)距光模塊成本數(shù)倍于電交換

萬卡集群可能涉及跨機(jī)房走線,電交換機(jī)間互聯(lián)一般使用2km FR光模塊即可。如果引入OXC通過反射陣列對(duì)光路進(jìn)行調(diào)整,會(huì)帶來額外的光傳輸損耗,需要使用更長(zhǎng)距的光模塊,否則可能導(dǎo)致鏈路信號(hào)不穩(wěn)定,引發(fā)訓(xùn)練中斷。

以Google為例,即使OXC插損做到了業(yè)界最低1.5dB,設(shè)備間互聯(lián)也需要使用10km LR定制光模塊,成本是2km光模塊的3~5倍。根據(jù)業(yè)界推測(cè),引入OXC的前期成本約為電交換機(jī)的3-6倍,OXC帶來的功耗和成本優(yōu)勢(shì)并不顯著。

最近國內(nèi)某廠家發(fā)布了OXC全光DCN交換機(jī),根據(jù)筆者初步評(píng)估,綜合技術(shù)和成本分析無法替代國內(nèi)廠商三層白盒交換機(jī)。

總結(jié):光電混合組網(wǎng)只是概念股,OXC商用前景并不樂觀

當(dāng)前,國內(nèi)產(chǎn)業(yè)圈子OXC呼聲高漲,引發(fā)了不少關(guān)注。然而,所有的變革都需要深思熟慮,過度炒作只會(huì)掩蓋真正的問題。

如果OXC做核心層設(shè)備,整網(wǎng)控制面需要以AI訓(xùn)練任務(wù)信息作為輸入進(jìn)行光電統(tǒng)一調(diào)度。OXC交換帶來網(wǎng)絡(luò)拓?fù)鋭?dòng)態(tài)調(diào)整,網(wǎng)絡(luò)的負(fù)載均衡、流量調(diào)度嚴(yán)重依賴電交換機(jī)側(cè)的配合和協(xié)同。除此之外,OXC設(shè)備本身還要攻克時(shí)延、插損等一系列技術(shù)難題。智算場(chǎng)景下多種技術(shù)挑戰(zhàn)疊加,OXC進(jìn)入DCN還存在較大的差距,產(chǎn)業(yè)各方仍需正視挑戰(zhàn),繼續(xù)努力。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
中國電信邵廣祿:面向AI大模型的智算集群及網(wǎng)絡(luò)的實(shí)踐和展望
精彩專題
2024中國算力大會(huì)
2024年國際信息通信展
中國信科亮相2024年國際信息通信展
第25屆中國國際光電博覽會(huì)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像