跳到正文
This is Oscar
返回

ALTK-Evolve:AI 代理的在岗学习

原文标题:ALTK-Evolve: On-the-Job Learning for AI Agents
原文链接:https://huggingface.co/blog/ibm-research/altk-evolve

摘要

“永远的实习生”问题

想象一位才华横溢的厨师记住了每本烹饪书,但每天早上都忘记了你的厨房。他们不记得你的烤箱火力很大,也不记得常客喜欢额外的盐;他们会按照食谱卡做菜,但从不学会如何调整。

实习生需要为”油醋汁”和”鸭à l’orange”学习不同的配方。而真正的厨师学的是”酸平衡”原则,可以应用到数百种菜肴。代理应该如此工作。

最近的麻省理工学院研究发现,95% 的飞行员失败,因为代理无法在工作中适应和学习。ALTK-Evolve 直接解决了这个问题。

解决方案:使用 ALTK-Evolve 进行长期记忆

Evolve 是 AI 代理的记忆系统,可以帮助代理随着时间推移改进,从用户交互和失败中学习。

在操作上,该系统作为连续循环运行:

  1. 向下流(观察和提取):捕获完整的代理轨迹(用户请求、代理思考、API 调用、结果),然后使用 LLM 提取相关实体(失败原因、成功模式、重要参数)。
  2. 向上流(优化和检索):后台合并和评分作业合并类似的发现,丢弃噪音,并在未来请求时检索最相关的见解。

这种方法有效有几个关键原因:

结果:更好的可靠性,特别是在困难任务上

我们在 AppWorld 上评估了该框架,代理通过 API 完成现实的多步任务,平均需要 4-5 个 API 调用和 2-4 个步骤。

以下是评估的一些关键结论:

在论文 https://arxiv.org/abs/2603.10600 中查找有关实验的更多详情。

入门(选择您的路径)

您可以选择将 ALTK-Evolve 集成到您的代理中的方式。

无代码方式:Claude Code、Codex 和 IBM Bob(精简模式)

将插件安装到 Claude Code 中:

该就是全部!插件从轨迹中提取实体并将其存储为文件系统上的文件,您可以随时查看和编辑。

更喜欢看视频而不是阅读?请参阅简短的 Evolve-Lite Claude Code 演练(视频)。

查看这里的演练,了解如何在精简模式下使用 Claude Code 学习的示例。

精简模式易于试用,但有局限。例如,它不会从跨多个对话的见解中获益。有一个完整的云部署选项可以做到这一点。

还有与 Codex 和 IBM Bob 的一步集成。试试看!

低代码方式:使用 ReAct 代理

添加一个单一的 altk_evolve.auto 导入并翻转一个标志以向 Arize Phoenix UI 发出跟踪。然后同步那些痕迹。

要了解这如何轻松适应现有项目,请探索我们的实践示例和演练。

专业代码方式:使用 CUGA

我们通过 MCP 直接将 ALTK-Evolve 集成到 CUGA 中,以创建紧密、低开销的学习循环。

尝试它并告诉我们您的代理学到了什么

我们已经开放了一个测试版。立即尝试!

观看演示以查看实际情况。

参考资源


分享到:

上一篇
使用 Sentence Transformers 的多模态嵌入与重排序模型
下一篇
追踪每一个 Token:Microsoft Foundry Agents 的粒度成本和使用指标