AI原生软件的质量保障-2026深圳站_QECon全球软件质量效能大会-橙柚科技

优惠倒计时

8折票抢购中

团购享更多优惠

北京站 · 10月16-17日

上海站 · 9月4-5日

深圳站 · 5月22-23日

专场：AI 原生软件的质量保障

......

专场出品人：

......

张磊

阿里云可观测高级开发工程师

阿里云可观测-应用可观测稳定性负责人，主要负责应用可观测产品线的产品研发与稳定性建设，阿里云APM产品与AI可观测产品核心研发。有大规模可观测数据处理、云原生及AI原生架构的可观测体系建设的经验。

待定

可观测与评估工程驱动的 AI Agent 迭代优化飞轮

议题背景：
当基于LLM的Agent应用涉及生产部署以及规模化对外服务时，其质量保障与系统稳定性成为关键挑战。传统服务的“可用性”测试与监控已无法应对Agent任务成功率波动、工具调用错误及安全合规等深层风险，由于模型的不确定性、外部工具依赖的不可靠性以及长链路推理带来的不稳定性，我们需要一套有效的机制来避免Agent发版迭代的效果退化。本次分享将聚焦Agent优化迭代、质量保障的技术路径与落地实践，打通AI Agent “观测 - 评估 - 优化 - 发布”的Agent迭代闭环飞轮，助力 Agent 应用在快速变化中保持高质量并稳定的输出表现。

内容大纲：
1. Agent规模化落地的核心挑战
1.1 传统监控盲区：传统可用性指标无法有效度量Agent任务成功与逻辑一致性。
1.2 双重风险并存：版本迭代中的效果回归风险与生产环境的运行时稳定性风险。
2. 全链路观测体系
2.1 Agent全链路追踪：全面覆盖Agent关键技术与步骤的链路埋点，透视Agent执行轨迹。
2.2 Agent关键性能指标加工：单轮任务/对话的迭代次数、token消耗、工具调用统计、任务完成率。
3. 评估体系
3.1 高效、高质量的评测数据准备：关键特征提取→语义去重→数据质量判定→LLM/人工标注，构建基于线上观测数据

高效回流黄金数据集的pipeline。
3.2 Agent实验设计：根据Agent落地场景，设计实验case与性能基线、构建实验环境的经验之谈。
3.3 评估器的设计与实现
3.3.1 评估器类型选型：LLM-as-Judge/规则引擎/人工评估的适用场景与权衡。
3.3.2 Trace & Session级评估：Agent行为证据链诊断分析，从工具调用链中定位效果不佳的根因，提升可解释性与可

修复性。
4. 基于可观测与评估工程，从数据到决策的闭环体系实践
4.1 Agent迭代优化飞轮：全链路观测与实时评估 → 黄金数据集构建 → Agent迭代优化 → 实验回放与评估 → 基线对比

分析 → 发版上线。
4.2 阿里云可观测内部Agent迭代优化飞轮的落地实践。

听众收益：
1. 学习一套Agent可观测体系：构建覆盖Agent执行全链路的追踪与埋点体系，定义Agent的核心性能指标，让Agent的表现变得可量化。
2. 掌握Agent自动化评估的技术框架：了解如何高效构建黄金数据集，并设计不同数据维度的混合评估策略（LLM-as-Judge/规则/人工），实现对Agent效果的持续、可靠评估。
3. 获得一个经过验证的迭代飞轮：阿里云内部实践的“观测-评估-优化-发布”闭环框架与经验，指导Agent在快速迭代中效果持续提升，避免退化。

敬请期待

......

.....

待定

敬请期待

....