跳到正文
This is Oscar
返回

Meta 的容量效率优化:统一 AI Agent 如何在超大规模下优化性能

原文标题:Capacity Efficiency at Meta: How Unified AI Agents Optimize Performance at Hyperscale
原文链接:https://engineering.fb.com/2026/04/16/developer-tools/capacity-efficiency-at-meta-how-unified-ai-agents-optimize-performance-at-hyperscale/

我们构建了一个统一的 AI Agent 平台,将资深效率工程师的领域专业知识编码为可复用、可组合的技能。这些 Agent 现在能自动化地发现和修复性能问题,已回收数百兆瓦(MW)的电力,并将原本需要数小时的人工回归调查压缩到数分钟内,使该计划能够在不按比例扩大人员编制的情况下,在越来越多的产品领域扩大兆瓦交付量。

在防守端,Meta 内部的回归检测工具 FBDetect 每周捕获数千个回归问题;更快的自动化解决意味着更少的兆瓦在整个集群中白白浪费。在进攻端,AI 辅助的机会解决方案正在每半年扩展到更多产品领域,处理越来越多工程师无法手动处理的优化机会。这就是 Meta 容量效率计划在不按比例增加团队的情况下不断提升兆瓦交付量的方式。最终目标是建立一个由 AI 处理长尾工作的自持续效率引擎。

以下是它的工作原理以及我们的未来方向:

容量效率计划介绍

当你发布的代码服务于超过 30 亿用户时,即使是 0.1% 的性能回归也会转化为巨大的额外电力消耗。

在 Meta 的容量效率组织中,我们将效率视为双向努力:

这些系统运行良好,多年来在 Meta 的效率工作中发挥了重要作用。然而,实际解决这些系统发现的问题引入了一个新的瓶颈:人类工程师的时间。

这些人工工程时间可能花费在以下任何活动上:

Meta 的许多工程师每天都在使用我们的效率工具处理这些问题。但无论工具质量多么高,当产品创新是首要任务时,工程师处理性能问题的时间是有限的。

我们开始思考:如果 AI 能够接管调查和解决工作会怎样?

进攻与防守共享相同的结构

突破在于我们意识到两个问题共享相同的结构:

这意味着我们不需要两套独立的 AI 系统,而只需要一个可以同时服务两者的平台。

我们在两个层次上构建了这个平台:

工具与技能结合在一起,将通用语言模型提升为能够运用通常由资深工程师掌握的领域专业知识的系统。同样的工具可以同时支持进攻和防守,区别只在于技能

防守:在回归问题复合之前捕获它们

FBDetect 是 Meta 内部的回归检测工具,可以在嘈杂的生产环境中捕获小至 0.005% 的性能回归。它分析如下所示的时序数据:

当 FBDetect 发现回归时,我们立即尝试将其根因追溯到某个代码或配置变更;这是理解发生了什么的关键第一步。这主要通过传统技术完成,例如将回归函数与近期拉取请求进行关联。确定根因后,工程师通常会收到通知并被要求采取行动,例如优化近期的代码变更。我们增加了一个额外功能来加快这一过程:

AI 回归解决器

我们的 AI 回归解决器是 FBDetect 最新、最有前景的组件,它能自动生成一个拉取请求来前向修复回归问题。传统上,导致性能回归的根因(拉取请求)要么被回滚(降低工程速度),要么被忽视(不必要地增加基础设施资源消耗)。

现在,我们的内部编程 Agent 被激活来执行以下操作:

进攻:将机会转化为已交付的代码

在进攻侧,“效率机会”是提出的概念性代码变更,被认为可以提升现有代码的性能。我们构建了一个系统,工程师可以查看某个机会并请求 AI 生成实现它的拉取请求。原本需要数小时调查的工作,现在只需数分钟即可审查和部署。

这个流程与防守侧的 AI 回归解决器相对应:

重要的是,我们使用与防守端相同的工具:性能分析数据、文档、代码搜索。区别在于技能

统一平台,复合回报

我们共享工具和数据源的统一架构是一个清晰的抽象。每个现有和新的 Agent 都有一个简单的方式来通过我们构建的接口收集性能相关的上下文,无需重新发明轮子。

这篇文章聚焦于我们最初的使用场景:性能回归和机会。在一年之内,同样的基础支撑了更多应用:效率问题的对话式助手、容量规划 Agent、个性化机会推荐、引导式调查工作流以及 AI 辅助验证。每项新能力几乎不需要新的数据集成,因为它们只需将现有工具与新技能进行组合即可。

影响

容量效率计划的成果是显著的:我们已回收数百兆瓦的电力。进攻和防守两侧的 AI 系统都为支持这项工作做出了贡献。

但更深层的变化在于进攻和防守如何相互强化:原本花费早晨时间进行防守性分类的工程师,现在只需数分钟就能审查 AI 生成的分析。使用效率工具的工程师现在可以获得 AI 辅助的代码,而无需从零开始。令人望而生畏的”我从哪里开始?“的问题,已经被审查和部署高影响力修复所取代。

引用


分享到:

上一篇
使用 Amazon Nova Micro 和 Amazon Bedrock 按需推理实现经济高效的自定义 Text-to-SQL
下一篇
Gemma 3n 发布:开发者指南