
近日,英伟达在其博客发文表示,公司Spectrum-X 以太网硅光技术现已全面量产,新一代 Spectrum-X 交换机基于光电一体封装技术 (CPO) 构建,支持 NVIDIA Vera Rubin 平台在数据中心进行横向扩展和跨区域扩展部署 AI 工厂。

英伟达表示,该平台实现量产离不开与台积电、SPIL、TFC 和 Foxconn等中国台湾地区半导体和系统生态合作伙伴的深度协同,它们分别为从硅光到系统的流程关键层提供了突出贡献,例如:
台积电先进的硅光制造技术,将突破性设计转化为可投入生产的芯片;
SPIL 的芯片级封装、组装和测试技术,将电气和光学组件以微米级精度结合在一起;
TFC 的激光芯片经过模组封装,提供满足全年全天候运行的 AI 工作负载所需的可靠性要求;
Foxconn 的系统组装将 Spectrum-X CPO 交换机集成到完整的机架型网络平台中;
NVIDIA AI 工厂系统在 NVIDIA 自有和运营的 AI 工厂内进行拆箱、安装和通电,在客户发货前验证整体工作流。
据了解,Spectrum-X 以太网硅光技术是 NVIDIA 全栈协同设计的典范代表之一。与使用传统收发器的网络相比,Spectrum-X 以太网硅光技术可实现能效提升5倍, AI正常运行时间提升5倍,部署时间快1.3倍。
凭借简化设计,为计算释放更多电力,NVIDIA 光电一体封装技术网络为百万 GPU AI 工厂提供了基础架构,CoreWeave、Lambda 和 Oracle Cloud Infrastructure 等公司已率先采用该技术。
CPO 封装为AI工厂带来了哪些优势?
随着 AI 重新定义计算格局,网络已成为构建未来数据中心发展的关键支柱。大语言模型的训练性能不仅取决于计算资源,更受到底层网络敏捷性、容量和智能程度的影响。行业正从传统以CPU为中心的基础架构,迈向紧耦合的、GPU驱动和网络定义的AI工厂。
采用可插拔光模块的传统网络交换机依赖于多个电接口。在这些架构中,数据信号需经过一条较长的电传输路径:从交换机ASIC出发,经PCB、连接器,最终到达外部光收发器,之后才能转换为光信号。如下图所示,这种分段式传输在每秒200Gb/s的通道中可能带来高达22 dB的电损耗。这显著增加了对复杂数字信号处理以及多个有源组件的需求。

Spectrum-X Photonics 可将信号完整性提升64倍
采用可插拔光模块的结果就是功耗更高(每个接口通常为30W)、发热量增加以及潜在故障点显著增多。大量的独立模块和连接不仅推高了系统功耗和组件数量,还直接影响了链路的可靠性,随着AI部署规模的不断扩大,这些问题将带来持续的运营挑战。各组件的典型功耗如下图所示。

Spectrum-X Photonics将功耗降低至1/3.5
相比之下,采用CPO技术的交换机将电光转换部分直接集成到交换机封装中。光纤直接连接至和ASIC封装在一起的光引擎。
CPO的优势显而易见:
3.5 倍能效提升:通过将光学器件直接集成到交换机 ASIC 封装中和减少了可插拔光模块,即使网络密度大幅增加,每个端口的功耗也显著降低。
可靠性提升 10 倍:通过减少有源器件和去除了易发生故障的光模块,显著提高了系统正常运行时间和运行可靠性。
将运营时间缩短至原来的1/1.3 (约77%):简化的组装与维护有助于加快AI工厂的部署,并实现快速扩展。
硅光+CPO,推动 AI 时代网络的变革
采用集成硅光技术的 NVIDIA CPO 交换机是代理式 AI 时代全球领先的网络解决方案。NVIDIA 的 CPO 创新技术将插拔式光模块替换为与 ASIC 一体化封装的硅光器件,与传统技术相比,可将能效提升 5 倍,网络可靠性提高 10 倍,进而将应用程序的持续运行时间延长了 5 倍。
基于 NVIDIA CPO 的网络可简化管理和设计,并增强计算基础设施的性能。这些优势对于实现未来百万级 GPU AI 工厂的大规模部署至关重要。
6月2日Computex大会上,Marvell CEO Matt Murphy发表主题演讲,英伟达CEO黄仁勋为其站台,他们谈到了 AI 数据中心光互连,黄仁勋直言“尽可能用铜,能用光的地方全用光”。Matt Murphy则用很大的篇幅详细阐述了CPO,他强调CPO不是未来主义的东西,而是正在发生的现实。
英伟达此次并非单纯发布交换机,而是正式推动AI数据中心进入“硅光+CPO时代”。
注:图片非商业用途,存在侵权告知删