跳到正文
This is Oscar
返回

使用 G7e 实例加速 Amazon SageMaker AI 上的生成式 AI 推理

原文标题:Accelerate Generative AI Inference on Amazon SageMaker AI with G7e Instances
原文链接:https://aws.amazon.com/blogs/machine-learning/accelerate-generative-ai-inference-on-amazon-sagemaker-ai-with-g7e-instances/

G7e 实例封面图

随着生成式 AI 需求的持续增长,开发者和企业正在寻求更灵活、更具成本效益且更强大的加速器来满足其需求。今天,我们很高兴地宣布,由 NVIDIA RTX PRO 6000 Blackwell 服务器版 GPU 提供支持的 G7e 实例现已在 Amazon SageMaker AI 上正式推出。

您可以配置搭载 1、2、4 和 8 块 RTX PRO 6000 GPU 的节点,每块 GPU 提供 96 GB GDDR7 显存。本次发布使您能够使用单节点 GPU(G7e.2xlarge 实例)托管 GPT-OSS-120B、Nemotron-3-Super-120B-A12B(NVFP4 变体)和 Qwen3.5-35B-A3B 等强大的开源基础模型(FM),为希望在保持高推理性能的同时降低成本的组织提供了一个高性价比的选择。G7e 实例的主要亮点包括:

Amazon Elastic Compute Cloud(Amazon EC2)G7e 实例代表了云端 GPU 加速推理的重大飞跃。与上一代 G6e 实例相比,它们的推理性能提升了最多 2.3 倍。每块 G7e GPU 提供 1,597 GB/s 的带宽,单块 GPU 的显存是 G6e 的两倍,是 G5 的四倍。在最大 G7e 规格上,通过 EFA 的网络带宽可扩展至 1,600 Gbps——比 G6e 提升 4 倍,比 G5 提升 16 倍——解锁了此前在 G 系列实例上不切实际的低延迟多节点推理和微调场景。下表汇总了 8 GPU 层级的代际演进:

规格G5 (g5.48xlarge)G6e (g6e.48xlarge)G7e (g7e.48xlarge)
GPU8x NVIDIA A10G8x NVIDIA L40S8x NVIDIA RTX PRO 6000 Blackwell
每 GPU 显存24 GB GDDR648 GB GDDR696 GB GDDR7
GPU 显存总量192 GB384 GB768 GB
GPU 显存带宽600 GB/s/GPU864 GB/s/GPU1,597 GB/s/GPU
vCPU192192192
系统内存768 GiB1,536 GiB2,048 GiB
网络带宽100 Gbps400 Gbps1,600 Gbps (EFA)
本地 NVMe 存储7.6 TB7.6 TB15.2 TB
相对 G6e 的推理性能基准~1x最高 2.3x

在单一实例上拥有 768 GB 聚合 GPU 显存,G7e 可托管此前在 G5 或 G6e 上需要多节点设置才能运行的模型,从而降低了运维复杂性和节点间延迟。结合对使用第五代 Tensor Core 的 FP4 精度的支持,以及通过 EFAv4 的 NVIDIA GPUDirect RDMA,G7e 实例已成为在 AWS 上部署 LLM、多模态 AI 和 Agent 推理工作负载的首选。

G7e 的适用场景

G7e 兼具显存密度、带宽和网络能力,非常适合广泛的现代生成式 AI 工作负载:

部署演练

前提条件

要使用 SageMaker AI 尝试此方案,您需要满足以下前提条件:

部署

您可以克隆仓库并使用此处提供的示例 Notebook。

性能基准测试

为了量化代际改进,我们使用相同的工作负载对 G6e 和 G7e 实例上的 Qwen3-32B(BF16)进行了基准测试:每次请求约 1,000 个输入 Token 和约 560 个输出 Token。这代表了文档摘要或纠错任务。两种配置均使用启用了前缀缓存的原生 vLLM 容器。

生成这些结果所使用的基准测试套件可在示例 Jupyter Notebook 中找到。它遵循三步流程:(1)使用原生 vLLM 容器在 SageMaker AI 端点上部署模型;(2)在 1 到 32 个并发请求的并发级别下进行负载测试;(3)分析结果以生成以下性能表格。

G6e 基准:ml.g6e.12xlarge [4x L40S,$13.12/小时]

配备 4 块 L40S GPU 和张量并行度 4,G6e 提供了出色的单请求吞吐量:单并发时为 37.1 tok/s,C=32 时为 21.5 tok/s。

C成功率p50 (s)p99 (s)tok/sRPS聚合 tok/s$/M tokens
1100%16.116.337.10.0737$38.09
8100%19.820.230.30.42242$5.85
16100%23.123.526.00.73416$3.41
32100%26.029.221.51.21686$2.06

G7e:ml.g7e.2xlarge [1x RTX PRO 6000 Blackwell,$4.20/小时]

G7e 在单块 GPU 上运行相同的 320 亿参数模型,张量并行度为 1。虽然单请求 tok/s 低于 G6e 4 GPU 配置,但成本表现截然不同。

C成功率p50 (s)p99 (s)tok/sRPS聚合 tok/s$/M tokens
1100%27.227.522.00.0422$21.32
8100%28.728.920.90.28167$2.81
16100%30.330.619.90.53318$1.48
32100%33.233.318.50.99592$0.79

数字揭示了什么

在生产并发(C=32)下,G7e 每百万输出 Token 的成本为 $0.79,与 G6e 的 $2.06 相比降低了 2.6 倍。这由两个因素驱动:G7e 显著更低的小时费率($4.20 对比 $13.12)及其在负载下维持一致吞吐量的能力。G7e 的单 GPU 架构扩展也更为优雅。延迟从 C=1 到 C=32 仅增加 22%(27.2s 到 33.2s),而 G6e 则增加了 62%(16.1s 到 26.0s)。张量并行度为 1 时,不存在:

随着并发增加和 GPU 趋于饱和,这种无协调开销的特性使延迟保持可预测。对于低并发下的延迟敏感型工作负载,G6e 的 4 GPU 并行仍然能提供更快的单次响应。对于追求规模化低成本每 Token 的生产部署,G7e 是明确的选择,正如我们在下一节所示,将 G7e 与 EAGLE(用于提升语言模型效率的外推算法)推测性解码相结合会进一步放大这一优势。

组合基准测试:G7e + EAGLE 推测性解码

G7e 本身的硬件改进已经相当显著,但将其与 EAGLE 推测性解码相结合会产生复合收益。EAGLE 通过从模型自身的隐藏表示预测多个未来 Token,然后在单次前向传播中验证它们,从而加速 LLM 解码。这在保持相同输出质量的同时,每步生成多个 Token。如需了解 EAGLE 在 SageMaker AI 上的详细介绍,包括优化作业设置和基础版与训练版 EAGLE 工作流,请参阅 Amazon SageMaker AI 推出基于 EAGLE 的自适应推测性解码以加速生成式 AI 推理

在本节中,我们使用 BF16 精度的 Qwen3-32B 衡量从基准到 G7e + EAGLE3 的叠加改进效果。基准工作负载每次请求使用约 1,000 个输入 Token 和约 560 个输出 Token,代表文档摘要或纠错任务。EAGLE3 使用带有 num_speculative_tokens=4社区训练推测器(约 1.56 GB)启用。

G7e + EAGLE3 吞吐量和成本对比图

G7e + EAGLE3 相比上一代基准实现了 2.4 倍的吞吐量提升和 75% 的成本降低。在每百万输出 Token 成本 $0.41 的情况下,其成本也是 G6e + EAGLE3($1.72)的 4 倍,同时提供了更高的吞吐量。

启用 EAGLE3

对于使用微调模型的生产部署,SageMaker AI 的 EAGLE 优化工具包可以在您自己的数据上训练自定义 EAGLE 头,进一步提高推测接受率和吞吐量,超越社区推测器所能提供的水平。

定价

Amazon SageMaker AI 上的 G7e 实例按所选实例类型和使用时长的标准 SageMaker AI 推理定价计费。在 G7e 上服务不收取额外的每 Token 或每请求费用。

EAGLE 优化作业在 SageMaker AI 训练实例上运行,按作业时长的标准 SageMaker 训练实例费率计费。生成的改进模型 Artifact 存储在 Amazon Simple Storage Service(Amazon S3) 中,按标准存储费率计费。改进后的模型部署后,EAGLE 加速推理不收取额外费用。您只需支付标准端点实例成本。

下表显示了美国东部(弗吉尼亚州北部)主要 G7e、G6e 和 G5 实例规格的按需定价供参考。G7e 行已高亮显示。

实例GPUGPU 显存典型用例
ml.g5.2xlarge124 GB小型 LLM(≤7B FP16);开发和测试
ml.g5.48xlarge8192 GBG5 上的大型多 GPU LLM 服务
ml.g6e.2xlarge148 GB中型 LLM(≤14B FP16)
ml.g6e.12xlarge296 GB大型 LLM(≤36B FP16);上一代基准
ml.g6e.48xlarge8384 GB超大型 LLM(≤90B FP16)
ml.g7e.2xlarge196 GB单 GPU 上的大型 LLM(≤70B FP8)
ml.g7e.24xlarge4384 GB超大型 LLM;高吞吐量服务
ml.g7e.48xlarge8768 GB最高吞吐量;最大模型

您还可以通过 Amazon SageMaker Savings Plans 降低推理成本,该计划承诺一定的一致使用量,可提供高达 64% 的折扣。这非常适合具有可预测流量的生产推理端点。

清理

在完成测试后,为避免产生不必要的费用,请删除演练过程中创建的 SageMaker 端点。您可以通过 SageMaker AI 控制台或使用 Amazon SageMaker AI 开发者指南中所示的 Python SDK 来完成此操作。

如果您运行了 EAGLE 优化作业,还应从 Amazon S3 中删除输出 Artifact,以避免持续的存储费用。

结论

Amazon SageMaker AI 上的 G7e 实例代表了经济高效的生成式 AI 推理的下一个重大飞跃。Blackwell GPU 架构每 GPU 提供 2 倍的显存、1.85 倍的显存带宽,以及比 G6e 高达 2.3 倍的推理性能。这使得以前需要多 GPU 的工作负载能够在单 GPU 上高效运行,并提高了每种 GPU 配置的吞吐量上限。与 SageMaker AI 的 EAGLE 推测性解码相结合后,改进效果进一步复合。EAGLE 的显存带宽受限加速直接受益于 G7e 的更高带宽,而 G7e 更大的显存容量使 EAGLE 草稿头能够与更大的模型共存,而不会产生显存压力。硬件和软件的共同改进带来了吞吐量提升,直接转化为规模化情境下更低的每输出 Token 成本。

从 G5 到 G6e 再到 G7e 的演进,叠加 EAGLE 优化,代表了一条近乎持续的硬件-软件协同优化路径——随着模型演进,以及生产流量数据被捕获并反馈到 EAGLE 再训练中,这条路径将不断改进。

引用


分享到:

上一篇
使用 Amazon Bedrock AgentCore 和 Amazon Nova 2 Sonic 构建全渠道点单系统
下一篇
ToolSimulator:为 AI Agent 提供可扩展的工具测试