admin管理员组

文章数量:1029754

OFC 2025:港中文硅光神经形态处理器(OSP)替代DSP,实现200Gbps PAM4 5km色散补偿

香港中文大学的黄超然团队在OFC会议上报道了一款性能卓越的高速光信号处理器(OSP),基于深度储备池计算原理,展示了C波段1.6T (8×100 GBaud PAM4)传纤5km的色散补偿,功耗和时延特性显著优于传统DSP,且可以与硅光模块无缝集成,未来需要着重解决损耗/链路预算问题。

◆ 研究背景

随着现代AI模型规模的急剧增长,参数数量巨大,训练大型人工智能模型需要多个数据中心的协同合作,而这些数据中心通过光互连连接。为使众多GPU能像一个巨型GPU一样协同工作,光互连不仅需要超低的延迟,还需要延迟的一致性。

◆ 当前面临的问题

传统的DSP技术成为了光互连的严重瓶颈。随着网络距离的增加和GPU数量的增多,延迟显著增加,导致数据中心的大多数GPU被迫闲置,浪费资源并限制了人工智能的训练速度。在高数据速率下,DSP带来的延迟和能耗大幅上升,并且在IMDD中,无法完全补偿色度色散。即使采用最先进的3nm DSP技术,100 Gbaud的PAM4信号在数据中心的传输距离仍被限制在2公里以内,这严重阻碍了人工智能集群的扩展。 ◆ 光学信号处理器(OSP)的优势

使用光学信号处理器(OSP)替代DSP可以带来显著的改变。OSP能够提供超低且一致的延迟,即使互连距离增加和GPU数量增多,其延迟仍可保持在小于100ps的水平,甚至比最快的数字时钟还快。同时,OSP的功耗极低,比DSP小数百倍。此外,OSP具有超高带宽,一个OSP可以支持多个波长通道,与DSP可扩展性差的特点形成鲜明对比。特别重要的是,OSP可以在光域完全补偿光纤失真,而DSP会丢失相位信息,无法实现完全补偿。 ◆ 当前OSP研究现状

光学神经网络是OSP的一个典型示例,它利用光学元件和电路以超快且节能的方式模拟神经网络的行为。其中,储备池网络计算是光学神经网络的架构之一,特别适合处理时间信号,硬件实现简单且训练高效。

然而,当前的OSP仍然存在诸多限制。首先,速度方面受限,通常需要一个运行速度比信号快几倍的输入mask,实际中难以实现。其次,速度还受到光子和光电器件(如激光器和调制器)的限制。此外,大多数OSP实现方式需要额外的数字处理,导致高能耗和高延迟,且许多方法无法与光收发器集成,使得当前的光学处理器无法提供与DSP相近的性能。 ◆ 本工作的技术突破与创新

本工作通过引入时间延迟深度储备池,成功克服了上述所有问题。该模块可以去除传统上限制速度的输入掩码,同时深度储备池网络提高了记忆深度和动态性能,使得可以使用更少的储备池网络权重,从而省去数字处理,并在单个光子芯片上实现深度储备池网络层、网络组合层和输出层。

光路包括一个具有三层储备池的光子深度储层,每层具有延迟环,反馈强度通过嵌入环内的两个移相器可调,反馈长度分别约为18、36和9ps。这种配置通过更好地控制每层内的反馈动态和时间处理,增强了表示的丰富性。储备池输出的一部分被导向下一层储备池,剩余的光作为输出。该输出由复数系数加权(通过MZI结合移相器实现),然后合并生成读出层的输入。

光子读出层由8条独立的光路径组成,每条路径引入从0到7τ的递增延迟(τ=5ps)。这种设计确保读出层即使在高达100 GBd的高符号速率下,也能在每个符号中覆盖足够的采样点。每条路径由复数读出权重加权,8条光路径合并后输出,由光电探测器检测并完成非线性变换。通过优化可调移相器,该光子处理器可有效补偿不同数据速率和不同调制格式的输入信号的色散和非线性

芯片基于硅光子平台制造,可以与光收发器单片集成,构建光互连的光模块,且与可插拔光学器件和紧凑型光学器件兼容。

◆ 实验验证 团队在C波段的5km传输系统中对芯片进行了实现和测试。该芯片可通过片上可编程移相器和片上训练算法(PSO)进行编程,以支持对各种数据速率和调制格式的光纤信号进行补偿。

实验展示了80 Gbaud和100 Gbaud下NRZ和PAM4信号的眼图,经过OSP补偿后,速度仅受实验设置的限制。在100 Gbaud信号的5公里传输中,实现了无DSP的光学实时信号处理,相应的色散在O波段等效超过80公里,远大于当前IMDD的2公里传输距离。

此外,芯片能够补偿线性和非线性失真(power fading),补偿后信道响应几乎与理想情况相同。在光学非均匀性补偿方面,补偿后的系统允许更大的发射功率和更高的Q因子,超越了传统的DSP方法。

单个OSP芯片支持8通道100 Gbaud PAM4 (1.6T) 信号传输,在1550nm处优化一次后,该通道可满足硬判决前向纠错(FEC)要求,且其他波长即使未优化,其误码率也与使用优化后的DSP时相当。

混合式OSP加DSP模块用不到30个数字抽头即可实现硬判决FEC,而仅使用DSP时,即使有超过800个数字抽头,也只能达到软判决纠错效率。 ◆ 性能优势

在延迟和能耗方面,OSP表现出色,可保持小于60ps的一致超低延迟,在高数据速率下能耗可降低到每比特几飞焦。其在延迟和能耗方面的缩放规律表明,该技术特别适合大规模人工智能基础设施中的光互连。

与当前的光信号处理器和DSP相比,团队的工作实现了超过200 Gbps的最大处理速度,在数据速率-距离乘积方面也明显优于DSP。 ◆ 面临的挑战与未来展望 目前,OSP面临的唯一挑战是插入损耗,由于制造工艺不完善,芯片的损耗为15dB。但通过采用更优化的制造工艺或低损耗平台,损耗可降低到6dB以下。未来,还可在芯片上集成光放大器,如SOA,并将其无损集成到系统中。

◆ 结论

本工作展示了具有100 Gbaud实时处理速度的OSP,该处理器可针对不同调制格式进行编程,在数据速率-传输距离乘积方面优于DSP,能在超低延迟和超低能耗下运行,有潜力与光模块中的光收发器单片集成用于光互连。这一成果不仅仅是一次技术升级,更是光互连领域的一次范式转变,为未来光通信和人工智能发展提供了新的方向。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-18,如有侵权请联系 cloudcommunity@tencent 删除人工智能数据网络芯片优化

OFC 2025:港中文硅光神经形态处理器(OSP)替代DSP,实现200Gbps PAM4 5km色散补偿

香港中文大学的黄超然团队在OFC会议上报道了一款性能卓越的高速光信号处理器(OSP),基于深度储备池计算原理,展示了C波段1.6T (8×100 GBaud PAM4)传纤5km的色散补偿,功耗和时延特性显著优于传统DSP,且可以与硅光模块无缝集成,未来需要着重解决损耗/链路预算问题。

◆ 研究背景

随着现代AI模型规模的急剧增长,参数数量巨大,训练大型人工智能模型需要多个数据中心的协同合作,而这些数据中心通过光互连连接。为使众多GPU能像一个巨型GPU一样协同工作,光互连不仅需要超低的延迟,还需要延迟的一致性。

◆ 当前面临的问题

传统的DSP技术成为了光互连的严重瓶颈。随着网络距离的增加和GPU数量的增多,延迟显著增加,导致数据中心的大多数GPU被迫闲置,浪费资源并限制了人工智能的训练速度。在高数据速率下,DSP带来的延迟和能耗大幅上升,并且在IMDD中,无法完全补偿色度色散。即使采用最先进的3nm DSP技术,100 Gbaud的PAM4信号在数据中心的传输距离仍被限制在2公里以内,这严重阻碍了人工智能集群的扩展。 ◆ 光学信号处理器(OSP)的优势

使用光学信号处理器(OSP)替代DSP可以带来显著的改变。OSP能够提供超低且一致的延迟,即使互连距离增加和GPU数量增多,其延迟仍可保持在小于100ps的水平,甚至比最快的数字时钟还快。同时,OSP的功耗极低,比DSP小数百倍。此外,OSP具有超高带宽,一个OSP可以支持多个波长通道,与DSP可扩展性差的特点形成鲜明对比。特别重要的是,OSP可以在光域完全补偿光纤失真,而DSP会丢失相位信息,无法实现完全补偿。 ◆ 当前OSP研究现状

光学神经网络是OSP的一个典型示例,它利用光学元件和电路以超快且节能的方式模拟神经网络的行为。其中,储备池网络计算是光学神经网络的架构之一,特别适合处理时间信号,硬件实现简单且训练高效。

然而,当前的OSP仍然存在诸多限制。首先,速度方面受限,通常需要一个运行速度比信号快几倍的输入mask,实际中难以实现。其次,速度还受到光子和光电器件(如激光器和调制器)的限制。此外,大多数OSP实现方式需要额外的数字处理,导致高能耗和高延迟,且许多方法无法与光收发器集成,使得当前的光学处理器无法提供与DSP相近的性能。 ◆ 本工作的技术突破与创新

本工作通过引入时间延迟深度储备池,成功克服了上述所有问题。该模块可以去除传统上限制速度的输入掩码,同时深度储备池网络提高了记忆深度和动态性能,使得可以使用更少的储备池网络权重,从而省去数字处理,并在单个光子芯片上实现深度储备池网络层、网络组合层和输出层。

光路包括一个具有三层储备池的光子深度储层,每层具有延迟环,反馈强度通过嵌入环内的两个移相器可调,反馈长度分别约为18、36和9ps。这种配置通过更好地控制每层内的反馈动态和时间处理,增强了表示的丰富性。储备池输出的一部分被导向下一层储备池,剩余的光作为输出。该输出由复数系数加权(通过MZI结合移相器实现),然后合并生成读出层的输入。

光子读出层由8条独立的光路径组成,每条路径引入从0到7τ的递增延迟(τ=5ps)。这种设计确保读出层即使在高达100 GBd的高符号速率下,也能在每个符号中覆盖足够的采样点。每条路径由复数读出权重加权,8条光路径合并后输出,由光电探测器检测并完成非线性变换。通过优化可调移相器,该光子处理器可有效补偿不同数据速率和不同调制格式的输入信号的色散和非线性

芯片基于硅光子平台制造,可以与光收发器单片集成,构建光互连的光模块,且与可插拔光学器件和紧凑型光学器件兼容。

◆ 实验验证 团队在C波段的5km传输系统中对芯片进行了实现和测试。该芯片可通过片上可编程移相器和片上训练算法(PSO)进行编程,以支持对各种数据速率和调制格式的光纤信号进行补偿。

实验展示了80 Gbaud和100 Gbaud下NRZ和PAM4信号的眼图,经过OSP补偿后,速度仅受实验设置的限制。在100 Gbaud信号的5公里传输中,实现了无DSP的光学实时信号处理,相应的色散在O波段等效超过80公里,远大于当前IMDD的2公里传输距离。

此外,芯片能够补偿线性和非线性失真(power fading),补偿后信道响应几乎与理想情况相同。在光学非均匀性补偿方面,补偿后的系统允许更大的发射功率和更高的Q因子,超越了传统的DSP方法。

单个OSP芯片支持8通道100 Gbaud PAM4 (1.6T) 信号传输,在1550nm处优化一次后,该通道可满足硬判决前向纠错(FEC)要求,且其他波长即使未优化,其误码率也与使用优化后的DSP时相当。

混合式OSP加DSP模块用不到30个数字抽头即可实现硬判决FEC,而仅使用DSP时,即使有超过800个数字抽头,也只能达到软判决纠错效率。 ◆ 性能优势

在延迟和能耗方面,OSP表现出色,可保持小于60ps的一致超低延迟,在高数据速率下能耗可降低到每比特几飞焦。其在延迟和能耗方面的缩放规律表明,该技术特别适合大规模人工智能基础设施中的光互连。

与当前的光信号处理器和DSP相比,团队的工作实现了超过200 Gbps的最大处理速度,在数据速率-距离乘积方面也明显优于DSP。 ◆ 面临的挑战与未来展望 目前,OSP面临的唯一挑战是插入损耗,由于制造工艺不完善,芯片的损耗为15dB。但通过采用更优化的制造工艺或低损耗平台,损耗可降低到6dB以下。未来,还可在芯片上集成光放大器,如SOA,并将其无损集成到系统中。

◆ 结论

本工作展示了具有100 Gbaud实时处理速度的OSP,该处理器可针对不同调制格式进行编程,在数据速率-传输距离乘积方面优于DSP,能在超低延迟和超低能耗下运行,有潜力与光模块中的光收发器单片集成用于光互连。这一成果不仅仅是一次技术升级,更是光互连领域的一次范式转变,为未来光通信和人工智能发展提供了新的方向。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-04-18,如有侵权请联系 cloudcommunity@tencent 删除人工智能数据网络芯片优化

本文标签: OFC 2025港中文硅光神经形态处理器(OSP)替代DSP,实现200Gbps PAM4 5km色散补偿