公眾號記得加星標,第一時間看推送不會錯過。
過去二十年,數據中心的性能進步主要依賴于計算芯片—— CPU、GPU、FPGA 不斷演進,但進入生成式 AI 時代后,整個算力體系開始被網絡重新定義。在大模型訓練中,GPU 間的通信延遲與帶寬瓶頸,已經成為訓練效率的關鍵約束。尤其當模型參數突破萬億級,單個 GPU 已難以承擔任務,必須通過數千、數萬張 GPU 的并行協同來完成訓練。
在這一過程中,網絡的重要性愈發凸顯,近日,行業內的一則大消息是:Meta/Oracle 兩大科技巨頭選擇了 NVIDIA Spectrum-X 以太網交換機與相關技術。此舉被業界視為以太網向 AI 專用互連邁出的重要一步。

Spectrum-X,以太網 AI 化
過去幾十年,以太網是數據中心采用最為廣泛的網絡。但在 AI 為核心的時代,AI 的核心挑戰不在單個節點的算力,而在分布式架構下的協同效率。訓練一個基礎模型(如 GPT、BERT、DALL-E),需要跨節點同步海量梯度參數。整個訓練過程的速度,取決于最慢的那一個節點——這正是 " 尾延遲(Tail Latency)" 問題的根源。
因此,AI 網絡的設計目標不是 " 平均性能 ",而是要確保極端情況下也不拖后腿。這對網絡延遲、丟包率、流量調度、擁塞控制乃至緩存架構,都提出了遠超傳統以太網的要求。為此,英偉達推出了 Spectrum-X,首個專為 AI 優化的以太網解決方案。
那么,Spectrum-X 具體做了哪些改進呢?在 NVIDIA 最新白皮書《Networking for the Era of AI: The Network Defines the Data Center》中,英偉達對此有著詳細的介紹。
第一、打造無損以太網。在傳統以太網中,丟包與重傳被視為 " 可接受成本 "。但在 AI 訓練中,任何丟包都可能導致 GPU 空閑、同步失敗或能耗激增。
Spectrum-X 通過:RoCE(RDMA over Converged Ethernet)技術實現 CPU 旁路通信;PFC(Priority Flow Control) + DDP(Direct Data Placement) 確保端到端無損傳輸;再與 Spectrum-X SuperNIC 聯動,實現硬件級擁塞檢測與動態流量調度。

這使得以太網第一次具備了接近 InfiniBand 的傳輸確定性。
第二、自適應路由與分包調度。AI 工作負載與傳統云計算最大的不同在于,它產生的是少量但極龐大的 " 象流(Elephant Flows)"。這些流量極易在網絡中形成熱點,造成嚴重擁塞。
Spectrum-X 采用包級自適應路由(Packet-level Adaptive Routing)與分包噴射(Packet Spraying)技術,通過實時監測鏈路負載,動態選擇最優路徑,并在 SuperNIC 層完成亂序重排。這種機制打破了以太網靜態哈希路由(ECMP)的局限,使 AI 集群在流量不均時仍能保持線性擴展能力。

第三、解決擁塞控制問題。傳統 ECN 擁塞控制的最大問題是響應延遲太高。當交換機檢測到擁塞并發出 ECN 標記時,緩沖區往往已被填滿,GPU 已出現空轉。
Spectrum-X 通過硬件級 In-band Telemetry(帶內遙測) 實時上報網絡狀態,SuperNIC 據此立即執行 Flow Metering(流量節流),實現亞微秒級反饋閉環。英偉達聲稱,其技術已展現出創紀錄的效率,其擁塞控制技術實現了 95% 的數據吞吐量,而現成的大規模以太網吞吐量約為 60%。
第四、性能隔離與安全。AI 云往往需要在同一基礎設施上運行來自不同用戶或部門的訓練任務。Spectrum-X 通過共享緩存架構(Universal Shared Buffer) 確保不同端口公平訪問緩存,防止 " 吵鬧鄰居 " 任務影響他人。同時配合 BlueField-3 DPU,在網絡與存儲層提供:MACsec/IPsec 加密(數據在途安全);AES-XTS 256/512 加密(數據靜態安全);Root-of-Trust 與 Secure Boot(硬件安全啟動)。這使得 AI 云具備了類似私有集群的安全隔離能力。
可以說,Spectrum-X 讓以太網有了 "AI 基因 "。因此,這也贏得了 Meta 和 Oracle 的青睞,不過兩家在采用 Spectrum-X 上選擇了不同的落地策略,各自圍繞自身業務訴求做出優化。
Meta 的路線更側重 " 開放可編排的網絡平臺 " ——將 Spectrum 系列與 FBOSS 結合、并在 Minipack3N 這類開源交換機設計上實現落地,體現了 Meta 在軟硬分離、可編程控制面方面的持續投入。對 Meta 而言,目標是以開放規范支持其面向數十億用戶的生成式 AI 服務,既要高效也要可控。
Oracle 則將 Vera Rubin 作為加速器架構、以 Spectrum-X 做為互聯骨干,目標是把分散的數據中心、成千上萬的節點聚合為統一的可編排超算平臺,從而為企業級客戶提供端到端的訓練與推理服務。Oracle 管理層將此類部署稱為 "Giga-Scale AI 工廠 ",并將其作為云競爭中的差異化基石。
無論路線如何不同,二者的共同點十分明顯:當算力持續呈指數級增長時,網絡層決定了這些 " 理論上的算力 " 能否轉化為 " 實際可用的吞吐與業務價值 "。
Spectrum-X 的殺傷力幾何?
從產業鏈競爭格局的角度來分析,NVIDIA Spectrum-X 的推出,確實是一場對以太網網絡行業結構的 " 降維打擊 "。
首先要理解,Spectrum-X 不是一款單獨的交換機產品,而是一種系統戰略。它將以下三個組件綁定為一個 " 軟硬一體 " 生態:
Spectrum-X 交換機 ASIC(實現無損以太網與自適應路由);
Spectrum-X SuperNIC(負責包級重排、擁塞控制與遙測反饋);
BlueField-3 DPU(提供安全隔離與 RoCE 優化)。
也就是說,NVIDIA 把原本屬于獨立廠商的三層網絡生態(交換機、網卡、加速器)一口吞下,讓 " 網絡成為 GPU 的延伸模塊 ",實現了 Compute – Network – Storage 的垂直閉環。因此,這一戰略幾乎撼動了整個以太網生態。
這意味著過去依靠以太網標準生存的網絡公司——無論是賣芯片的、賣交換機的、賣優化軟件的——都被迫進入一場新的博弈:要么融入 NVIDIA 的 AI 網絡體系,要么被邊緣化。
直接被波及的企業當中,首當其沖的是數據中心以太網芯片廠商,例如 Broadcom(Trident/Tomahawk 系列)、Marvell(Teralynx、Prestera)。Spectrum-X 的 RDMA over Ethernet 能力本質上在挑戰所有高端以太網芯片的價值。這些廠商長期壟斷 " 交換芯片 +NIC" 雙生態,以往他們的賣點是 " 開放 + 性價比 "。但當 NVIDIA 把 AI 優化特性(如 DDP、Telemetry、Lossless Routing)內嵌到 GPU/DPU 協同體系中后,這意味著 Spectrum-X 實際上撕開了以太網的 " 算力黑箱 ",勢必會一定程度上波及到這些廠商。
再一個可能受到影響是傳統網絡設備供應商,例如 Cisco(思科)、Arista Networks(艾睿思塔)、Juniper Networks(瞻博),這些公司在超大規模云數據中心中一直是 " 以太網標準派 " 的代表。他們的高端產品主要賣點是:支持 400/800 GbE;提供豐富的可編程特性;軟件定義網絡(SDN)管理能力。
但在 Spectrum-X 架構下,英偉達通過 "GPU + SuperNIC + Switch + DPU" 形成封閉但極致的性能鏈條,客戶無需再依賴 Cisco/Arista 的傳統優化方案,尤其在 AI 工廠這種 " 單租戶 + 極端性能 " 的環境中,英偉達可以逐漸取代他們的角色。Arista 的市值已經有一半來自 AI 網絡預期,但 Spectrum-X 若被 Meta、Oracle、AWS 等大客戶全面采用,Arista 的增長模型可能會被削弱。
第三個群體是,專注互連的初創芯片企業。如 Astera Labs、Cornelis Networks、Liqid、和 Rockport Networks、Lightmatter、Celestial AI 等——正在開發具備低延遲、高拓撲可擴展性的定制互連方案。
首先讓我們簡單分析下這些廠商存在的意義,在英偉達的世界里,互連是垂直整合的:GPU → NVLink → Spectrum-X/InfiniBand → BlueField。但對于其他廠商(AMD、Intel、Google TPU),他們沒有控制整個堆棧的能力,因此急需這些 " 中立型互連供應商 " 提供可替代方案。例如:Astera Labs 的 Leo/Cosmos 系列控制器,已經被用在 AMD MI300 與 Intel Gaudi 平臺上,用來管理 GPU 與內存池的互連。Cornelis Networks 則與歐洲超算中心合作,推出 Omni-Path 200G 網絡,用以替代 InfiniBand;Liqid 的 Composable Fabric 方案被戴爾和 HPE 集成,用于 "AI 基礎設施即服務(AI IaaS)"。Lightmatter 與 Celestial AI 則瞄準更遠的未來——當光互連取代電互連時,整個 AI 計算集群的架構都將被重寫。
一旦大型云廠選擇 Spectrum-X 架構,就意味著其整個集群在驅動、遙測、QoS 控制層面都依賴 NVIDIA。初創廠商的開放 Fabric 難以兼容。在短期內,Spectrum-X 的整合速度與客戶綁定深度,確實讓這些獨立創新者的市場空間被明顯壓縮。
InfiniBand 穩坐高性能計算的王座
如果說 Spectrum-X 是以太網的 AI 化,那么英偉達 Quantum InfiniBand 則是 AI 原生的超級網絡。
從一開始,以太網追求的是開放性與普適性——它容忍一定丟包與延遲,以換取成本與兼容性。而 InfiniBand 的設計哲學恰恰相反:它追求極致的確定性與零損傳輸(Lossless Determinism)。早在 1999 年,它便作為 HPC(高性能計算)領域的數據互連標準登場,如今已成為全球超級計算中心的事實標準。
憑借三大特性,InfiniBand 在過去二十余年間始終穩居性能巔峰:
無損傳輸(Lossless Networking):確保訓練過程中無一字節數據丟失;
超低延遲(Ultra-Low Latency):通信時延以微秒計,遠低于傳統以太網;
原生 RDMA 與網絡內計算(In-Network Computing):在網絡層執行計算聚合,釋放主機負載。
這些能力讓 InfiniBand 成為 AI 訓練時代的 " 通信主干 ",尤其是在大模型動輒上萬 GPU 節點的架構下,它依然能維持線性擴展與穩定的同步性能。
英偉達在 2019 年以近 70 億美元收購 Mellanox 后,掌握了 InfiniBand 的全棧生態。最新的 Quantum-2 是英偉達 InfiniBand 架構的第七代產品,被業界視為當前最具代表性的高性能網絡平臺。它為每個端口提供高達 400 Gb/s 的帶寬,是前代產品的兩倍;其交換芯片的端口密度更是提升了 三倍,可在三跳 Dragonfly+ 拓撲 內連接超過 一百萬個節點。
更重要的是,Quantum-2 引入了第三代 NVIDIA SHARP(Scalable Hierarchical Aggregation and Reduction Protocol) 技術——這是一種將計算能力 " 嵌入網絡 " 的聚合機制,使網絡本身成為 " 協處理器 "。在這一架構下,AI 模型訓練的加速能力較上一代提升 32 倍,并支持多個租戶與并行應用共享同一基礎設施而不犧牲性能,真正實現了 " 網絡級虛擬化 " 的算力資源池化。
然而,InfiniBand 的輝煌背后,也潛藏著結構性的挑戰。一方面,它由 NVIDIA 主導并保持著較強的生態封閉性——這種 " 垂直一體化 " 的架構雖然帶來性能優勢,但也引發了云服務商與 OEM 廠商的擔憂:成本高、生態受限、兼容性有限、議價空間有限。
正因如此,以太網陣營正在加速反擊。包括 Meta、Oracle、Broadcom、AMD 在內的多家企業,正通過 Ultra Ethernet Consortium(超以太網聯盟) 推動新一代開放標準,希望在開放以太網架構下重建 InfiniBand 級的確定性與性能。這也是為何英偉達為何選擇推出 Spectrum-X 的一個原因,主動把自家優勢算法、遙測和擁塞控制機制 " 嫁接 " 到以太網標準體系中,以便在以太網生態中保持網絡層的話語權。

結語
從 InfiniBand 到 Spectrum-X,英偉達正在完成一場看似開放、實則更深層次的 " 壟斷重構 "。它在封閉與開放之間搭建雙軌系統——一條面向 HPC 與超算(InfiniBand),一條面向云與企業 AI(Spectrum-X)。最后,就用英偉達白皮書中的一句話結束吧:"The network defines the data center." —— AI 時代的算力,不再在芯片之間,而在連接之中。
* 免責聲明:本文由作者原創。文章內容系作者個人觀點,半導體行業觀察轉載僅為了傳達一種不同的觀點,不代表半導體行業觀察對該觀點贊同或支持,如果有任何異議,歡迎聯系半導體行業觀察。