跳到正文
This is Oscar
返回

追踪每一个 Token:Microsoft Foundry Agents 的粒度成本和使用指标

原文标题:Tracking Every Token: Granular Cost and Usage Metrics for Microsoft Foundry Agents
原文链接:https://techcommunity.microsoft.com/blog/azure-ai-foundry-blog/tracking-every-token-granular-cost-and-usage-metrics-for-microsoft-foundry-agent/4503143

当组织扩大他们对 AI 代理的使用时,一个问题不断浮现:每个代理实际成本是多少?不是在订阅级别。不是在资源组级别。而是按代理、按模型、按请求。

本文介绍了一个解决方案,该方案通过将三个 Azure 服务(Microsoft AI Foundry、Azure API 管理 (APIM) 和 Application Insights)结合起来,创建了一个可观测、计量的 AI 网关,具有粒度级 Token 遥测功能,包括自定义维度,使您能够追踪每一个成本产生的代理。

问题:AI 成本可能是一个黑匣子

Foundry 的内置监控和成本视图最终由遥测提供支持,该遥测在 REST API 级别捕获 LLM 使用情况。此外,要计算按代理成本,您需要:

为什么构建此解决方案

此解决方案是为了缩小”我们部署了代理”和”我确切知道每个代理花费了多少”之间的可观测性差距而构建的。设计目标是:

  1. 按代理捕获粒度成本(按模型、按完成)
  2. 提供易于查询的存储,用于成本审计和历史分析
  3. 实现近实时的警报和异常检测
  4. 保持所有内容本地化和可审计,遵守监管和合规要求

工作原理

该架构故意简单——三个服务,一个数据流。重要的是使用标准:

Azure API 管理充当 AI 网关。对 Foundry 托管代理的每个请求都通过 APIM 路由,它日志记录请求/响应详细信息,包括完整的 LLM 使用数据。

笔记本旨在进行测试和快速迭代——调用代理、检查响应、查看 Token 使用情况。然后您可以快速将这种反馈转移到生产中。

Application Insights 通过 OpenTelemetry 接收此遥测。该解决方案发送两种类型的数据:

演示粒度成本和使用指标

这就是解决方案闪耀的地方。一旦遥测流动,您可以回答详细问题。

每个请求的详细信息

查询 traces 表以查看每个单独的代理调用,具有完整的 Token 和成本详细信息:

traces | where message == "llm.usage" | extend cd = parse_json(replace_string(tostring(customDimensions), '"', '"')) | project timestamp, tostring(customDimensions.agent_name), tostring(customDimensions.model), tostring(customDimensions.prompt_tokens), tostring(customDimensions.completion_tokens), tostring(customDimensions.cost)

这为您提供了一个逐项审计追踪——每个请求、每个代理、每个 Token。

按代理的聚合指标

按代理、模型和时间段分组来查看聚合消费:

customMetrics
| where name in ("prompt_tokens", "completion_tokens", "total_cost")
| extend agent_name = tostring(customDimensions.agent_name)
| summarize Total = sum(value) by agent_name, name

成本异常检测

监控超过阈值的完成(例如,意外昂贵的 Token 使用):

traces
| where message == "llm.usage"
| extend cost = todouble(customDimensions.cost)
| extend agent = tostring(customDimensions.agent_name)
| where cost > 10  // Alert if any completion costs > $10
| project timestamp, agent, cost, customDimensions

部署说明

  1. 使用 APIM 的标准部署流程,将您的 Foundry 代理作为后端设置。
  2. 配置策略以日志记录请求/响应,包括完整的 LLM 使用数据。
  3. 将 APIM 连接到 Application Insights,并开始使用 KQL 查询成本数据。
  4. 根据需要建立警报和自定义仪表板。

为什么这很重要

透明的成本追踪对于在生产中管理 AI 代理至关重要。这种方法提供了:

对于任何在生产中运行 AI 代理的组织来说,这都是必不可少的实践。

参考资源


分享到:

上一篇
ALTK-Evolve:AI 代理的在岗学习
下一篇
Claude Mythos 预览版:网络安全能力评估