ALTK-Evolve：AI 代理的在岗学习

原文标题：ALTK-Evolve: On-the-Job Learning for AI Agents
原文链接：https://huggingface.co/blog/ibm-research/altk-evolve

摘要

想象一位才华横溢的厨师记住了每本烹饪书，但每天早上都忘记了你的厨房。他们不记得你的烤箱火力很大，也不记得常客喜欢额外的盐；他们会按照食谱卡做菜，但从不学会如何调整。

实习生需要为”油醋汁”和”鸭à l’orange”学习不同的配方。而真正的厨师学的是”酸平衡”原则，可以应用到数百种菜肴。代理应该如此工作。

最近的麻省理工学院研究发现，95% 的飞行员失败，因为代理无法在工作中适应和学习。ALTK-Evolve 直接解决了这个问题。

Evolve 是 AI 代理的记忆系统，可以帮助代理随着时间推移改进，从用户交互和失败中学习。

在操作上，该系统作为连续循环运行：

这种方法有效有几个关键原因：

我们在 AppWorld 上评估了该框架，代理通过 API 完成现实的多步任务，平均需要 4-5 个 API 调用和 2-4 个步骤。

以下是评估的一些关键结论：

在论文 https://arxiv.org/abs/2603.10600 中查找有关实验的更多详情。

您可以选择将 ALTK-Evolve 集成到您的代理中的方式。

将插件安装到 Claude Code 中：

该就是全部！插件从轨迹中提取实体并将其存储为文件系统上的文件，您可以随时查看和编辑。

更喜欢看视频而不是阅读？请参阅简短的 Evolve-Lite Claude Code 演练（视频）。

查看这里的演练，了解如何在精简模式下使用 Claude Code 学习的示例。

精简模式易于试用，但有局限。例如，它不会从跨多个对话的见解中获益。有一个完整的云部署选项可以做到这一点。

还有与 Codex 和 IBM Bob 的一步集成。试试看！

添加一个单一的 altk_evolve.auto 导入并翻转一个标志以向 Arize Phoenix UI 发出跟踪。然后同步那些痕迹。

要了解这如何轻松适应现有项目，请探索我们的实践示例和演练。

我们通过 MCP 直接将 ALTK-Evolve 集成到 CUGA 中，以创建紧密、低开销的学习循环。

我们已经开放了一个测试版。立即尝试！

观看演示以查看实际情况。