随着人工智能技术的飞速发展,尤其是大模型(LLM)的广泛应用,AI对网络架构提出了更高的要求。2028年,AI网络架构将朝着“高吞吐、高Radix、高可靠、低时延、低功耗、低成本”的“三高三大”方向持续演进。在这一背景下,横向扩展(Scale-Out)和纵向扩展(Scale-Up)成为构建AI网络架构的两大关键策略。本文将探讨这两种扩展方式在2028年的技术趋势及其对AI网络架构的影响。
纵向扩展(Scale-Up):提升单点算力密度
定义与特点
纵向扩展(Scale-Up)是指通过增加单个节点的资源(如CPU核心、GPU、内存等)来增强系统能力。这种架构通常用于高性能计算场景,如AI大模型训练,其特点是高带宽、低延迟和硬件紧耦合。
2028年技术趋势
芯片架构演进
英伟达计划在2028年推出Feynman架构,该架构将显著提升单个GPU的性能。这种架构演进将使单个节点的算力密度大幅提高,支持更大规模的模型训练。
224G光互连技术将成为主流,相比112G光链路,224G具有更低的功耗、延迟和成本。
光互连技术
224G光互连技术将广泛应用于框内和框间连接,支持更高的带宽和更低的延迟。这种技术不仅提高了单个节点的性能,还降低了系统的整体能耗。
无DSP的LPO(Linear-drive Pluggable Optics)和NPO(No Power Optics)技术将逐渐取代传统的CPO(Co-packaged Optics),因为它们在功耗、延迟和成本方面具有显著优势。
应用场景
纵向扩展架构将主要用于AI大模型的训练和高性能计算(HPC)场景,这些场景对单点算力密度和通信效率要求极高。
横向扩展(Scale-Out):构建大规模分布式系统
定义与特点
横向扩展(Scale-Out)是指通过增加更多的节点来分配工作负载。这种架构通过分布式计算实现大规模并行处理,适用于需要处理海量数据和复杂任务的场景。
2028年技术趋势
网络架构演进
从传统的三层CLOS结构向二层CLOS结构转变,支持更大规模的组网。例如,采用Radix=512的100T交换芯片,可以实现12.8万卡的组网能力。
多端口AI-NIC(网络接口卡)将成为主流,800G AI-NIC将拆分为4个200G端口,接入4个独立的平面。
光模块技术
2028年,400G及以上光模块市场规模将突破180亿美元。1.6T和3.2T光模块将逐渐普及,支持更高的带宽和更低的延迟。
Retimed可插拔光模块将继续优化,以满足AI网络对功耗和密度的要求。
融合架构
Scale-Out与Scale-Up的融合将成为未来AI网络架构的重要趋势。例如,华为提出的UB-Mesh架构通过融合这两种扩展方式,实现了一层CLOS支持10万卡的组网能力。
应用场景
横向扩展架构将广泛应用于数据中心内部和数据中心间的互联(DCN),支持大规模分布式AI模型的训练和推理。
融合趋势:Scale-Up与Scale-Out的协同演进
融合的必要性
在AI大模型训练和推理中,单靠纵向扩展或横向扩展都无法满足日益增长的算力需求。因此,未来AI网络架构将更多地采用融合架构,通过结合纵向扩展的高带宽、低延迟和横向扩展的分布式计算能力,实现更高效、更灵活的算力扩展。
技术实现
超节点架构
超节点架构通过将多个高性能节点(如GPU集群)组合成一个强大的计算单元,再通过横向扩展实现大规模并行处理。这种架构在AI大模型训练中表现出色,能够显著提高训练效率和模型性能。
光互连技术
224G光互连技术将支持超节点内部和超节点之间的高效通信。通过优化光模块和光互连设计,可以进一步降低延迟和功耗。
借助AI技术提升网络自身的智能化水平,实现网络的智能自治。例如,意图驱动网络(IDN)和数字孪生网络(DTN)技术将简化网络管理操作流程,提升网络运行效率。
未来展望:2028年AI网络架构的关键特征
高吞吐与高Radix
2028年的AI网络架构将支持更高的吞吐量和更大的Radix(交换芯片的端口数),以满足大规模分布式计算的需求。例如,Radix=512的100T交换芯片将支持12.8万卡的组网能力。
低时延与低功耗
低时延和低功耗是AI网络架构的重要目标。通过采用224G光互连技术和无DSP的LPO/NPO技术,可以显著降低延迟和功耗。例如,224G光链路相比112G光链路,可以节省60%的功耗和120ns的延迟。
高可靠与低成本
未来AI网络架构将更加注重可靠性和成本效益。通过优化网络架构和采用先进的光互连技术,可以提高系统的可靠性和可维护性。同时,大规模生产和技术成熟将降低光模块和网络设备的成本。
总结
2028年,AI网络架构将在纵向扩展和横向扩展的协同演进中实现重大突破。纵向扩展将通过高性能芯片架构和光互连技术提升单点算力密度,而横向扩展将通过分布式计算和优化的网络架构实现大规模并行处理。两者的融合将成为未来AI网络架构的重要特征,支持更大规模的模型训练和推理任务。随着技术的不断进步,AI网络架构将朝着高吞吐、高Radix、高可靠、低时延、低功耗和低成本的方向持续演进,为人工智能的广泛应用提供坚实的基础。