AI数据中心里的GPU不是零散分布的,而是组成“集群”——比如一个集群有1024台GPU,这些GPU要通过光模块连接成一个“网络”,才能协同工作。这个网络的“密度”(每台GPU连接的光模块数量)直接影响AI的算力。
以前的GPU集群,每台GPU可能只连1个光模块,能和几十台其他GPU通信;现在的AI集群,每台GPU要连4个甚至8个光模块,能和几千台其他GPU通信,这样才能处理更复杂的模型。比如英伟达的DGX H100集群,每台服务器装8块GPU,每块GPU连2个800G光模块,整个集群能支持几千台GPU协同工作,这背后就是光模块的“高密度连接”在支撑。
中际旭创为AI集群设计的“光模块阵列”,能把多个800G光模块集成到一个“盒子”里,每台GPU只需要插一个“盒子”,就能实现和几千台GPU的连接,大大简化了集群的布线,还提高了连接的稳定性。
五、光模块的“技术升级”:从传统到CPO,未来还能怎么进化?
光模块不是一成不变的,为了跟上数据量和AI算力的增长,它的技术也在不断升级。从早期的“可插拔光模块”到现在热门的“CPO技术”,每一次升级都在解决“速度更快、成本更低、功耗更小”的问题。
1. 传统可插拔光模块:灵活但有瓶颈
我们之前讲的100G、400G、800G光模块,大多是“可插拔式”的——就像U盘一样,能插进服务器或交换机的接口,坏了可以直接拔下来换,灵活性很高。
这种模块的优点很明显:安装方便、维护简单,比如数据中心里某个光模块坏了,工程师不用拆服务器,直接换个新的就行,不影响其他设备工作。但随着速度提升到800G、1.6T,它的瓶颈也越来越明显:
- 功耗高:可插拔模块需要独立的电源和信号接口,速度越快,功耗越高。比如800G可插拔模块的功耗约12-15瓦,1.6T可能达到20瓦以上,成千上万的模块一起工作,总功耗会非常惊人。
- 延迟略高:信号要从服务器芯片传到可插拔模块的接口,再转换成光信号,这个过程会有微小的延迟。对普通数据传输来说没问题,但AI训练需要“零延迟”,这点延迟就可能影响效率。
- 成本高:高速可插拔模块的芯片和光学组件成本高,比如1.6T可插拔模块的价格目前还是800G的2倍多,对中小企业来说负担较重。
2. CPO技术:把光模块“焊”在芯片上,突破瓶颈
为了解决传统可插拔模块的瓶颈,行业里出现了“CPO技术”(共封装光学,Co-packaged Optics),简单说就是“把光模块和服务器/交换机的芯片直接封装在一起”,不用再做可插拔的接口。
你可以理解为:传统可插拔模块是“外置的快递站”,数据要先从服务器(家里)送到快递站,再发出去;CPO就是“把快递站搬进家里”,数据直接从服务器芯片传到光模块,不用绕路。
CPO技术的优势很突出:
- 功耗大幅降低:没有了可插拔接口的信号损耗和独立供电,CPO的功耗能比传统模块低30%-50%。比如1.6T CPO模块的功耗可能只有10瓦左右,比传统可插拔模块省一半电,对AI数据中心来说,每年能省上亿的电费。
- 延迟几乎为零:光模块和芯片直接连接,信号传输距离缩短到几毫米,延迟能从传统模块的几十纳秒(1纳秒=10的-9次方秒)降到几纳秒,完全满足AI训练的“零延迟”需求。
- 成本更低:去掉了可插拔接口的组件,CPO的硬件成本能降低20%以上,而且随着量产规模扩大,成本还会继续下降。
目前,CPO技术已经进入“试点验证”阶段,很多头部企业都在推进。比如中际旭创的CPO原型机已经通过了英伟达Quantum-X平台的认证,和英伟达联合开发的CPO交换机预计2026年量产;谷歌、亚马逊也计划在2025-2026年的AI数据中心里试点CPO技术,未来3-5年,CPO可能会成为800G以上高速光模块的主流方案。
3. 硅光技术:用“做芯片的方法”做光模块,降本又提效
除了CPO,“硅光技术”也是光模块的重要升级方向。传统光模块的光学组件(比如激光器、探测器)大多用“化合物半导体”(比如铟磷化物)做的,成本高、生产难度大;硅光技术则是“用做计算机芯片的硅材料来做光学组件”,把光学元件和电路芯片集成在一块硅片上。
这种技术的好处很直接:
- 成本低:硅材料是半导体行业最常见的材料,价格便宜,而且能像做计算机芯片一样“批量生产”,大幅降低光模块的成本。比如中际旭创把硅光技术用在800G光模块上,成本比传统方案降低了20%以上。
这章没有结束,请点击下一页继续阅读!
喜欢大白话聊透人工智能请大家收藏:(m.zuiaixs.net)大白话聊透人工智能醉爱小说网更新速度全网最快。