原文标题:ALTK-Evolve: On-the-Job Learning for AI Agents
原文链接:https://huggingface.co/blog/ibm-research/altk-evolve
摘要
- 大多数 AI 代理重复阅读对话记录,而不是学习原则,导致它们重复同样的错误,无法将经验教训转移到新情况。
- ALTK-Evolve 将原始代理轨迹转化为可复用的指导原则。
- 在基准测试中,该方法显著提高了可靠性,特别是在困难任务上(AppWorld 上提升 14.2%),且不会增加上下文负担。
“永远的实习生”问题
想象一位才华横溢的厨师记住了每本烹饪书,但每天早上都忘记了你的厨房。他们不记得你的烤箱火力很大,也不记得常客喜欢额外的盐;他们会按照食谱卡做菜,但从不学会如何调整。
实习生需要为”油醋汁”和”鸭à l’orange”学习不同的配方。而真正的厨师学的是”酸平衡”原则,可以应用到数百种菜肴。代理应该如此工作。
最近的麻省理工学院研究发现,95% 的飞行员失败,因为代理无法在工作中适应和学习。ALTK-Evolve 直接解决了这个问题。
解决方案:使用 ALTK-Evolve 进行长期记忆
Evolve 是 AI 代理的记忆系统,可以帮助代理随着时间推移改进,从用户交互和失败中学习。
在操作上,该系统作为连续循环运行:
- 向下流(观察和提取):捕获完整的代理轨迹(用户请求、代理思考、API 调用、结果),然后使用 LLM 提取相关实体(失败原因、成功模式、重要参数)。
- 向上流(优化和检索):后台合并和评分作业合并类似的发现,丢弃噪音,并在未来请求时检索最相关的见解。
这种方法有效有几个关键原因:
- 教导判断力:将一次性事件转化为可移植的策略,这些策略可以转移到新的场景。
- 控制噪声:评分保持记忆精简且有用,而不是一个不断增长的垃圾抽屉。
- 渐进式披露:检索是及时的,而不是将所有内容都塞进初始提示中。
结果:更好的可靠性,特别是在困难任务上
我们在 AppWorld 上评估了该框架,代理通过 API 完成现实的多步任务,平均需要 4-5 个 API 调用和 2-4 个步骤。
以下是评估的一些关键结论:
- 泛化能力:代理在未见过的 Test-Normal 任务上改进,证明它们学到的不仅仅是对特定任务的记忆。
- 复杂性扩展:任务越困难,代理从简明指导中受益越多。简单任务通常不需要额外的背景。
- 一致性:SGC 增益超过原始通过率改进,减少了”不稳定”行为。
在论文 https://arxiv.org/abs/2603.10600 中查找有关实验的更多详情。
入门(选择您的路径)
您可以选择将 ALTK-Evolve 集成到您的代理中的方式。
无代码方式:Claude Code、Codex 和 IBM Bob(精简模式)
将插件安装到 Claude Code 中:
该就是全部!插件从轨迹中提取实体并将其存储为文件系统上的文件,您可以随时查看和编辑。
更喜欢看视频而不是阅读?请参阅简短的 Evolve-Lite Claude Code 演练(视频)。
查看这里的演练,了解如何在精简模式下使用 Claude Code 学习的示例。
精简模式易于试用,但有局限。例如,它不会从跨多个对话的见解中获益。有一个完整的云部署选项可以做到这一点。
还有与 Codex 和 IBM Bob 的一步集成。试试看!
低代码方式:使用 ReAct 代理
添加一个单一的 altk_evolve.auto 导入并翻转一个标志以向 Arize Phoenix UI 发出跟踪。然后同步那些痕迹。
要了解这如何轻松适应现有项目,请探索我们的实践示例和演练。
专业代码方式:使用 CUGA
我们通过 MCP 直接将 ALTK-Evolve 集成到 CUGA 中,以创建紧密、低开销的学习循环。
尝试它并告诉我们您的代理学到了什么
我们已经开放了一个测试版。立即尝试!
观看演示以查看实际情况。
参考资源
- ALTK-Evolve 论文:https://arxiv.org/abs/2603.10600
- HuggingFace 博客原文:https://huggingface.co/blog/ibm-research/altk-evolve
- IBM Research:https://research.ibm.com/