Agent 质量工程实践:
构建 AI Agent 的可测试、可评估、可质检体系
议题背景:
随着 AI Agent 在研发、数据分析和业务自动化场景中的应用越来越广,传统的软件测试与质量保障方法逐渐失效。
Agent 的行为由 Prompt、工具调用与模型推理共同决定,输出具有不确定性,导致线上问题难以复现、调试困难、质量不可控,急需一套 Agent 技术特征的新范式。
为解决这些问题,我们构建了一套面向 Agent 的质量工程体系,包括 Langfuse Trace 可观测、Case 管理、录制回放(Replay)、Mock 工具、自动评估器以及线上实时质检 等关键能力,形成从研发、测试到生产的质量闭环。
内容大纲:
1. AI Agent 时代的软件质量挑战
1.1 Agent 与传统软件系统的差异
1.2 为什么传统测试方法在 Agent 场景下失效
1.3 Agent 研发中的典型工程痛点:不可复现、不可评估、质量不可控
2. Agent 质量工程体系设计
2.1 对标传统测试,Agent 测试工程设计
2.2 Trace、Case、Replay 与 Mock 的调试体系
2.3 自动评估与线上实时质检机制
3. 关键实践与踩坑经验
3.1 AI Trace 系统建设实践
3.2 Case 库建设与评估数据沉淀
3.3 Replay 与线上 Trace 的工程实践
3.4 自动评估器及迭代闭环设计
4. 落地效果与经验总结
4.1 Agent 质量工程体系落地效果
4.2 对研发效率与系统稳定性的提升
4.3 Agent 工程体系的未来展望
听众收益:
1. 解决 Agent “问题难复现、难调试”的工程痛点
很多团队在开发 AI Agent 时都会遇到问题:线上出现 badcase 后难以复现,只能反复调 Prompt 或重新运行。通过本次分享,听众将了解如何构建 Agent Trace + Replay 回放体系,让线上问题能够稳定复现,并大幅提升调试效率。
2. 解决 Agent “效果好坏难评估”的质量问题
与传统系统不同,Agent 的输出具有不确定性,团队往往依赖人工主观评估,效率低且难以规模化。本次分享将介绍 Case 库 + 自动评估器(LLM Judge) 的设计方法,帮助团队构建 自动化评估体系,实现 Agent 能力的持续评估与回归测试。
3. 解决 Agent “上线后质量不可控”的生产问题
很多 Agent 在测试环境表现良好,但上线后容易出现偏差甚至错误决策。本次分享将介绍 线上实时质检与质量监控机制,帮助团队在生产环境持续监控 Agent 输出质量,实现 AI 系统的 可观测、可评估、可治理。