专场:AI 原生软件的质量保障 
......
专场出品人:
......
......
张磊
阿里云 可观测高级开发工程师
阿里云可观测-应用可观测稳定性负责人,主要负责应用可观测产品线的产品研发与稳定性建设,阿里云APM产品与AI可观测产品核心研发。有大规模可观测数据处理、云原生及AI原生架构的可观测体系建设的经验。
待定
待定
可观测与评估工程驱动的 AI Agent 迭代优化飞轮
议题背景:
当基于LLM的Agent应用涉及生产部署以及规模化对外服务时,其质量保障与系统稳定性成为关键挑战。传统服务的“可用性”测试与监控已无法应对Agent任务成功率波动、工具调用错误及安全合规等深层风险,由于模型的不确定性、外部工具依赖的不可靠性以及长链路推理带来的不稳定性,我们需要一套有效的机制来避免Agent发版迭代的效果退化。本次分享将聚焦Agent优化迭代、质量保障的技术路径与落地实践,打通AI Agent “观测 - 评估 - 优化 - 发布”的Agent迭代闭环飞轮,助力 Agent 应用在快速变化中保持高质量并稳定的输出表现。

内容大纲:
1. Agent规模化落地的核心挑战
    1.1 传统监控盲区:传统可用性指标无法有效度量Agent任务成功与逻辑一致性。
    1.2 双重风险并存:版本迭代中的效果回归风险与生产环境的运行时稳定性风险。
2. 全链路观测体系
    2.1 Agent全链路追踪:全面覆盖Agent关键技术与步骤的链路埋点,透视Agent执行轨迹。
    2.2 Agent关键性能指标加工:单轮任务/对话的迭代次数、token消耗、工具调用统计、任务完成率。
3. 评估体系
    3.1 高效、高质量的评测数据准备:关键特征提取→语义去重→数据质量判定→LLM/人工标注,构建基于线上观测数据
          高效回流黄金数据集的pipeline。
    3.2 Agent实验设计:根据Agent落地场景,设计实验case与性能基线、构建实验环境的经验之谈。
    3.3 评估器的设计与实现
          3.3.1 评估器类型选型:LLM-as-Judge/规则引擎/人工评估的适用场景与权衡。
          3.3.2 Trace & Session级评估:Agent行为证据链诊断分析,从工具调用链中定位效果不佳的根因,提升可解释性与可
                   修复性。
4. 基于可观测与评估工程,从数据到决策的闭环体系实践
    4.1 Agent迭代优化飞轮:全链路观测与实时评估 → 黄金数据集构建 → Agent迭代优化 → 实验回放与评估 → 基线对比
          分析  → 发版上线。
    4.2 阿里云可观测内部Agent迭代优化飞轮的落地实践。

听众收益:
1. 学习一套Agent可观测体系:构建覆盖Agent执行全链路的追踪与埋点体系,定义Agent的核心性能指标,让Agent的表现变得可量化。
2. 掌握Agent自动化评估的技术框架:了解如何高效构建黄金数据集,并设计不同数据维度的混合评估策略(LLM-as-Judge/规则/人工),实现对Agent效果的持续、可靠评估。
3. 获得一个经过验证的迭代飞轮:阿里云内部实践的“观测-评估-优化-发布”闭环框架与经验,指导Agent在快速迭代中效果持续提升,避免退化。

敬请期待
......
.....
待定
待定
敬请期待
....
关注QECon公众号
关注QECon视频号
议题投稿 
lijie@qecon.net  
票务联系 
18649077637  Lily 
 
媒体合作
135-1619-6409  皮皮
商务合作
151-2264-3988  木子
购票咨询
18649077637  Lily
服务总线
400-183-9980  
电话咨询
联系电话:
18649077637  Lily