Ayar Labs在其官网上给出了Optical IO技术的两个典型应用场景,如下图所示,即AI集群中的scale-up互联和内存扩展。
所谓Scale-up互联,也称为vertical scaling或者backend network, 是指在单个计算节点内将多个GPU、CPU等互联起来,从而提升单节点的计算能力。在AIGC领域,大模型的参数比较多,而单颗GPU的计算与存储能力有限,需要将多颗GPU组成一个计算能力更强的计算单元来完成计算任务。大家所熟知的NVLink和AMD的inifity fabric都属于scale-up互联范畴。Scale-up网络对带宽和延迟要求较高。对于Ayar Labs来说,optical IO技术可以将不同机架上的GPU、GPU与交换机芯片互联起来,摆脱铜缆传输距离的限制,提供更高带宽、更低延迟、更低功耗的互联方案。
针对单颗GPU来说,其内存容量是有限的,以Nvidia最新的B100芯片为例,其HBM芯片放置在GPU芯片附近,总容量为192GB。而通过内存扩展(extended memory,也称为memory disaggregation)的方式,可有效地增大单颗GPU的内存,更加高效地分配使用存储资源。通过Optical IO技术,可以将GPU芯片与存储芯片低延迟地连接起来,摆脱HBM芯片必须放置在GPU附近的物理空间限制,从而解决内存墙(memory wall)的难题。
在AI芯片架构中,GPU芯片与HBM芯片都可以通过Optical IO芯片进行扩展互联。不同电芯片的电接口需要统一标准,否则不同厂家的电芯片适配会存在问题。此前,Ayar Labs与Intel合作,采用的是Intel的AIB接口,受到了一定的限制。由于UCIe协议的发展与推广,有望在chiplet领域得到应用,Ayar Labs在后续的产品roadmap中将电接口都转换为UCIe,如下图所示。其中Gen2为Ayar Labs当前产品的指标,仍然采用的是AIB接口,单颗TeraPHY芯片含8个光学端口,每个通道中含有8个波长,每个波长的信号速率为32Gbps, 总的双向带宽为4Tbps。未来有望实现16个端口,16个波长,单波长速率64Gbps,单个Optical IO芯粒的带宽为32Tbps
以上是对Ayar Labs最新动态的简单整理,在AIGC的浪潮中,Optical IO技术在chiplet互联中将扮演非常重要的角色。Ayar Labs将其TeraPHY芯片与UCIe接口匹配,进而应用于scale-up互联和内存扩展这两种场景,提供高带宽、低延迟、低功耗的互联方案。