跳到正文
This is Oscar
返回

发布 Virgo Network:Google 面向 AI 时代的超大规模数据中心网络结构

原文标题:Introducing Virgo Network, Google’s scale-out AI data center fabric
原文链接:https://cloud.google.com/blog/products/networking/introducing-virgo-megascale-data-center-fabric

Virgo Network 超大规模数据中心网络结构

AI 时代要求对云的物理架构进行根本性的重新思考——尤其是网络层面。随着基础模型参数规模的指数级增长,传统通用网络正在逼近其极限。为了驱动未来十年的机器学习发展,Google 设计了 Virgo Network——一种全新的超大规模 AI 数据中心网络结构,秉承”园区即计算机”(campus-as-a-computer)的设计理念,是我们 AI 超算机(AI Hypercomputer)的核心底座。

传统网络设计在面对现代 AI 的诸多约束时已显力不从心:

大规模扩展:训练所需的算力和空间已超出单一数据中心的承载能力,亟需统一的跨数据中心计算域。

图 1:AI 训练工作负载的亚毫秒级线速突发流量

图 1:AI 训练工作负载的亚毫秒级线速突发流量

重新定义数据中心网络

满足 AI 时代的需求,需要从通用网络设计向专用扁平低延迟网络架构进行根本性转变。为了应对独特的规模和延迟约束,我们将久经考验的 Jupiter 网络用于南北向流量,同时引入一种全新的网络结构专门处理东西向通信。由此形成的架构由三个截然不同、各有专攻的层次组成,共同运作为一个统一的计算域:

这种架构解耦带来了重要的战略优势:

图 2:数据中心网络架构

图 2:数据中心网络架构

发布 Virgo Network:超大规模数据中心网络结构

Virgo Network 是一种专为现代 AI 工作负载极端需求设计的横向扩展(scale-out)网络结构。它基于高基数交换机构建,通过增加每台交换机的端口数来减少网络层数,采用扁平、两层无阻塞拓扑。与传统数据中心网络相比,通过最小化网络层级,显著降低延迟。Virgo Network 采用多平面设计,具有独立控制域来连接加速器(图 3)。加速器机架同时通过 Jupiter 南北向网络访问计算与存储服务。这套精简架构共同提供了海量的对分带宽和确定性低延迟,既支持分布式训练,也支持推理服务工作负载。

图 3:超大规模数据中心网络结构(Virgo Network)

图 3:超大规模数据中心网络结构(Virgo Network)

Virgo Network 是我们下一代加速器设计的基础,具备以下优势:

大规模可靠性提升

在支撑数十万颗芯片的系统中,硬件故障不可避免。由于单个故障组件就可能中断同步训练任务,大规模可靠性是首要关注点。为最大化工作负载有效吞吐量,我们围绕故障隔离、深度可观测性以及挂起(hang)和掉队(straggler)的快速缓解来设计 Virgo Network 架构。

在这种规模下,全系统弹性需要坚实的网络基础。Virgo Network 集成了独立交换平面,提供强健的故障隔离能力,防止局部硬件故障降低集群整体的有效吞吐量。

图 4:故障停止(fail-stop)与故障缓慢(fail-slow)对平均恢复时间(MTTR)的影响

图 4:故障停止与故障缓慢对 MTTR 的影响

在此基础上,我们通过优化软件和编排层来最大化平均中断间隔时间(MTBI)并最小化平均恢复时间(MTTR),主要聚焦两个方向:

AI 超算机的基础底座

Virgo Network 是一种从零开始为现代 AI 工作负载严苛需求而专门构建的重新设计的横向扩展数据中心网络。这种扁平多平面架构将各 Pod 中的加速器统一为单一计算域,解决了传统网络在带宽和规模上的局限。通过在硬件层面直接提供强健的故障隔离能力,Virgo Network 成为全系统弹性的基础,保护同步工作负载免受局部硬件故障的影响。

归根结底,Virgo Network 提供了在智能体 AI 时代加速发展所必需的规模、可预测延迟与可靠性。如需进一步了解我们如何为 AI 的未来构建基础设施,请访问我们的 AI 基础设施解决方案页面,探索技术文档,或参加 Google Cloud Next 的专题分论坛。


引用


分享到:

上一篇
使用 Parakeet-TDT 与 AWS Batch 实现低成本大规模多语言音频转录
下一篇
第八代 TPU 深度解析:TPU 8t 与 TPU 8i 架构技术详解