随着5G、云、AI等新技术的应用和普及,数据爆炸式增长,各行各业对数据中心算力的要求越来越高。
回归算力“第一性原理”,数据中心有效算力与单芯片算力、集群规模、有效算力率和可用性等因素强相关。因此,通过采用集群计算解决方案进一步提升数据中心算力成为行业重要方向。在大规模集群算力中心内,光互联扮演着至关重要的角色,它能够满足高带宽、低功耗、低时延、高可靠性和可扩展性等苛刻需求,是大规模集群算力中心中不可或缺的一部分。
相比传统数据中心,大规模集群算力中心通常采用多轨和无收敛的网络架构,通过大量的光模块进行联接。在算力中心建设过程中,光纤难免受环境影响出现虚接、脏污等异常,导致出现开局故障,影响业务上线;在运营过程中,AI训练业务闪断是目前影响训练效率的关键瓶颈,业务闪断后通常需要投入大量运维资源、耗费大量时间进行网络链路和互联的断点排查、故障定界及业务恢复。
海量部署的光模块作为网络互联的关键物理媒介,如能在开局和训练过程中针对光纤连接故障进行识别和预警、业务闪断异常提供快速问题定界和排障将极大提升AI智算中心的可靠性与可用性。
星云光模块正是在上述背景下产生的一种用于AI智算场景的、差别于传统通用模块的新产品。星云光模块可提供面向AI智算的增强型诊断运维功能,包括光/电口链路、模块本体诊断、业务压测和光纤虚接、脏污预警定位等特性,助力AI网络系统高效、可靠运行。
星云光模块中光纤虚接、赃污预警功能重点针对业务异常闪断问题设计,可提前识别90%以上的现网开局问题,并支持分段定位和定界诊断功能,大幅提升AI智算网络的可用度。
展望未来,侯康表示AI及AI智算中心正处于前所未有的加速发展阶段,海思光电打造的“星云”系列光模块将持续适配AI智算中心对光互联的关键需求,赋能高可用、高可靠的场景需求,助力AI智算中心的快速发展。