专场:评测驱动 AI 研发新范式
人工智能正经历从“技术概念”到“产业深耕”的关键跃迁,以大模型为核心的AI智能体已深度渗透至各行各业的核心领域,重塑行业服务范式。在新的技术浪潮下,评测不应仅仅是上线前的“质检员”,而应成为贯穿需求定义、算法选型到线上迭代全生命周期的“指挥棒”。
本专场深入解析“评测驱动开发(Evaluation-Driven Development, EDD)”新范式,覆盖智能体产研的全生命周期:从设计阶段的评测基准(Benchmark)设计与高质量评测数据合成,到评测自动化框架与模型训练的深度集成,以及通过User Simulator、线上实验等方案实现评测与用户体验的精准对齐等议题。我们将结合前沿方法论与行业实战案例,展示如何构建高置信度且实时反馈的评测数据飞轮,助力智能体业务实现高质量的规模化增长。
专场出品人:付宇
支付宝技术部 行业质量与评测技术负责人
毕业于上海交大,在DFKI GmbH从事NLP相关工作。曾担任过余额宝、乘车码、健康码等多个国民级应用的质量保障1号位。现专注于政务民生、出行酒旅、就业与物流等行业的技术风险保障,致力于行业AI助手评测技术体系的创新攻坚,助力算法敏捷迭代与效果提升。
张磊
阿里云 可观测高级开发工程师
阿里云可观测-应用可观测稳定性负责人,主要负责应用可观测产品线的产品研发与稳定性建设,阿里云APM产品与AI可观测产品核心研发。有大规模可观测数据处理、云原生及AI原生架构的可观测体系建设的经验。
待定
待定
可观测与评估工程驱动的 AI Agent 迭代优化飞轮
议题背景:
当基于LLM的Agent应用涉及生产部署以及规模化对外服务时,其质量保障与系统稳定性成为关键挑战。传统服务的“可用性”测试与监控已无法应对Agent任务成功率波动、工具调用错误及安全合规等深层风险,由于模型的不确定性、外部工具依赖的不可靠性以及长链路推理带来的不稳定性,我们需要一套有效的机制来避免Agent发版迭代的效果退化。本次分享将聚焦Agent优化迭代、质量保障的技术路径与落地实践,打通AI Agent “观测 - 评估 - 优化 - 发布”的Agent迭代闭环飞轮,助力 Agent 应用在快速变化中保持高质量并稳定的输出表现。

内容大纲:
1. Agent规模化落地的核心挑战
    1.1 传统监控盲区:传统可用性指标无法有效度量Agent任务成功与逻辑一致性。
    1.2 双重风险并存:版本迭代中的效果回归风险与生产环境的运行时稳定性风险。
2. 全链路观测体系
    2.1 Agent全链路追踪:全面覆盖Agent关键技术与步骤的链路埋点,透视Agent执行轨迹。
    2.2 Agent关键性能指标加工:单轮任务/对话的迭代次数、token消耗、工具调用统计、任务完成率。
3. 评估体系
    3.1 高效、高质量的评测数据准备:关键特征提取→语义去重→数据质量判定→LLM/人工标注,构建基于线上观测数据高效回流黄金数据集的pipeline。
    3.2 Agent实验设计:根据Agent落地场景,设计实验case与性能基线、构建实验环境的经验之谈。
    3.3 评估器的设计与实现
         3.3.1 评估器类型选型:LLM-as-Judge/规则引擎/人工评估的适用场景与权衡。
         3.3.2 Trace & Session级评估:Agent行为证据链诊断分析,从工具调用链中定位效果不佳的根因,提升可解释性与可修复性。
4. 基于可观测与评估工程,从数据到决策的闭环体系实践
    4.1Agent迭代优化飞轮:全链路观测与实时评估 → 黄金数据集构建 → Agent迭代优化 → 实验回放与评估 → 基线对比分析  → 发版上线。
    4.2阿里云可观测内部Agent迭代优化飞轮的落地实践。

听众收益:
1.学习一套Agent可观测体系:构建覆盖Agent执行全链路的追踪与埋点体系,定义Agent的核心性能指标,让Agent的表现变得可量化。
2.掌握Agent自动化评估的技术框架:了解如何高效构建黄金数据集,并设计不同数据维度的混合评估策略(LLM-as-Judge/规则/人工),实现对Agent效果的持续、可靠评估。
3.获得一个经过验证的迭代飞轮:阿里云内部实践的“观测-评估-优化-发布”闭环框架与经验,指导Agent在快速迭代中效果持续提升,避免退化。

陆建国
中兴通讯  AI 算法资深专家
中兴通讯AI算法资深专家,公司青年领军人才。长期专注于大模型应用技术的研究与实践,特别是如何通过RAG和智能体技术,将大模型真正落地到企业级的复杂场景中,例如研发提效和智能运维。在这个过程中,积累了20+项技术专利,并带领团队研发了“自智网络生成式AI”网络智能体,这个项目也获得了TMF国际大奖。
待定
待定
构建确定性的量尺:
大模型 Agent 能力评测体系与工程实践
议题背景:
随着大模型技术从“单轮对话”向“自主智能体”演进,业务场景开始要求大模型具备长链路规划、工具调用和环境交互能力。传统基于静态数据集的NLP评测指标(如准确率、BLEU等)已彻底失效,无法真实反映Agent在动态环境中的表现。当前行业落地的最大痛点在于:Agent的行为具有极强的非确定性,“过程对但结果错”或“结果对但过程违规(幻觉调用)”的现象频发;同时,多轮交互的评测成本高昂且难以自动化。本议题旨在探讨如何从零构建一套自动化、高可用、动态追踪的Agent评测技术体系,解决环境沙盒构建、多步推理追踪等工程难题,为Agent的快速迭代提供客观、精准的“量尺”。

内容大纲:
1. 重新定义Agent评测:从静态比对到动态追踪的范式转移
    1.1 传统大模型评测 vs Agent评测的根本差异(非确定性、多步骤交互、环境状态流转)
    1.2 评测维度的深度拆解:从单纯看结果,转向评测“规划”、“工具选择”、“长期记忆”与“自我纠错”
    1.3 技术方案选型:基于规则的校验 vs LLM-as-a-Judge动态裁判员机制的权衡
2. 核心评测架构设计与关键技术落地
    2.1 轨迹追踪系统:如何无侵入式捕获并结构化Agent的思考与执行链路
    2.2 高保真环境沙盒构建:基于Docker/K8s的动态容器化隔离技术,解决评测过程中的“环境状态污染”与“数据重置”难题
    2.3 动态裁判员机制优化:多维度Judge Prompt的设计范式与多模型交叉验证机制,降低裁判幻觉
3.  工程实践“避坑”指南
    3.1 坑点1:工具调用的“破坏性”与安全风险
          实践: “Mock+真实环境”双轨评测机制。通过流量录制与回放生成高逼真Mock Server,隔离危险操作。
    3.2 坑点2:长链路多步推理导致的上下文超载与评测中断
          实践: 引入“状态快照”与“断点续评”机制。当Agent在第8步崩溃时,无需重跑前7步,直接从快照恢复。
    3.3 坑点3:高并发评测带来的API限流与高昂成本
          实践: 语义级缓存命中与局部树状重评策略,避免重复生成无意义的相似链路。
4. 质量与效能的量化收益
    4.1 质量收益: 精准拦截Agent死循环、工具参数幻觉等隐蔽缺陷,业务Agent端到端任务成功率提升。
    4.2 效能收益: 自动化动态评测替代了95%的耗时人工验收,核心业务的Agent回归测试周期从 “1.5天” 缩短至 “15分钟”。
    4.3 成本控制: 综合应用Mock与缓存重评技术,单次1000用例规模的全量评测 API调用成本降低。
5. 总结

听众收益:
1. 获得一套可直接落地的Agent评测架构蓝图:从底层指标定义到沙盒环境构建,帮助听众团队从0到1搭建或重构符合自身业务的自动化动态评测体系。
2. 掌握规避Agent评测工程“深水区”的实战经验:直接复用在链路追踪、环境污染隔离、断点快照续评等复杂场景下的技术级解决方案,少走弯路。
3. 获取极致“降本增效”的成熟策略:学习如何利用语义缓存、Mock拦截与局部重评机制,在保证评测置信度的同时,将高昂的大模型API评测成本砍掉一半以上。
4. 洞察行业真实的数据基准与Agent瓶颈特征:通过实战脱敏数据分享,了解当前主流Agent最容易陷入的缺陷陷阱(如规划崩塌、无限自我否定),为后续Agent的研发指明优化靶点。
马阳阳
去哪儿旅行 基础架构部基础平台负责人
去哪儿旅行 基础平台 Java 团队、QA 团队负责人,负责 AI Infra(智能体平台、AI Trace 等)、垂类 Agents(Data Agent、Coding Agent 等)、研发效能工具平台(演练、压测、自动化测试、开发组件、测试环境管理等)建设,以及大客户端框架质量保证、发版等领域。

25 年建设的智能体平台 QMoss 已在公司实现规模化落地,获公司年度 AI 最佳项目奖。
待定
待定
Agent 质量工程实践:
构建 AI Agent 的可测试、可评估、可质检体系
议题背景:
随着 AI Agent 在研发、数据分析和业务自动化场景中的应用越来越广,传统的软件测试与质量保障方法逐渐失效。
Agent 的行为由 Prompt、工具调用与模型推理共同决定,输出具有不确定性,导致线上问题难以复现、调试困难、质量不可控,急需一套 Agent 技术特征的新范式。

为解决这些问题,我们构建了一套面向 Agent 的质量工程体系,包括 Langfuse Trace 可观测、Case 管理、录制回放(Replay)、Mock 工具、自动评估器以及线上实时质检 等关键能力,形成从研发、测试到生产的质量闭环。

内容大纲:
1. AI Agent 时代的软件质量挑战
   1.1 Agent 与传统软件系统的差异
   1.2 为什么传统测试方法在 Agent 场景下失效
   1.3 Agent 研发中的典型工程痛点:不可复现、不可评估、质量不可控
2. Agent 质量工程体系设计
    2.1 对标传统测试,Agent 测试工程设计
    2.2 Trace、Case、Replay 与 Mock 的调试体系
    2.3 自动评估与线上实时质检机制
3. 关键实践与踩坑经验
    3.1 AI Trace 系统建设实践
    3.2 Case 库建设与评估数据沉淀
    3.3 Replay 与线上 Trace 的工程实践
    3.4 自动评估器及迭代闭环设计
4. 落地效果与经验总结
    4.1 Agent 质量工程体系落地效果
    4.2 对研发效率与系统稳定性的提升
    4.3 Agent 工程体系的未来展望

听众收益:
1.  解决 Agent “问题难复现、难调试”的工程痛点
很多团队在开发 AI Agent 时都会遇到问题:线上出现 badcase 后难以复现,只能反复调 Prompt 或重新运行。通过本次分享,听众将了解如何构建 Agent Trace + Replay 回放体系,让线上问题能够稳定复现,并大幅提升调试效率。
2.  解决 Agent “效果好坏难评估”的质量问题
与传统系统不同,Agent 的输出具有不确定性,团队往往依赖人工主观评估,效率低且难以规模化。本次分享将介绍 Case 库 + 自动评估器(LLM Judge) 的设计方法,帮助团队构建 自动化评估体系,实现 Agent 能力的持续评估与回归测试。
3. 解决 Agent “上线后质量不可控”的生产问题
很多 Agent 在测试环境表现良好,但上线后容易出现偏差甚至错误决策。本次分享将介绍 线上实时质检与质量监控机制,帮助团队在生产环境持续监控 Agent 输出质量,实现 AI 系统的 可观测、可评估、可治理。
赵丽坤
支付宝 高级质量技术专家
毕业后曾就职于腾讯、美团,目前在蚂蚁担任智能化质量负责人,多年算法质量保障、AI评测以及AI研发效能提升的经验,长期深耕智能技术的质量领域,致力于打造高可靠、可度量、高效迭代的AI研发与交付体系,助力业务在算法驱动、AI原生场景中实现高效能、高可靠的发展闭环。
待定
待定
搜推算法的智能评测新范式:从白盒可解释到智能决策
议题背景:
随着AI深度融入核心业务场景,传统以功能正确性为导向的质量验证体系,已难以全面衡量智能应用在“可用、可信、可靠”等关键维度的真实表现,更无法有效驱动业务价值增长。为此,我们聚焦评测智能化这一核心路径,构建贯通业务智能评测与智能应用评测的端到端闭环体系,让评测从质量守门员转变为价值驱动引擎。
25年评测助力30+实验推全,效果提升20%+。

内容大纲:
1. 业务背景介绍
    1.1 业务背景概述
    1.2 评测内容及意义
2. 评测挑战与策略
    2.1 业务评测挑战及演进
    2.2 业务智能评测策略
3. 评测建设实践
    3.1 搜推模型白盒化可解释
    3.2 效果评测体系
    3.3 评测智能化
    3.4 算法质量智能化
4. 总结与展望
    4.1 总结
    4.2 未来展望

听众收益:
1. 可复用的评测体系方法论
2. 智能化评测演进方向
3. 评测驱动业务增长的实战经验
4. 在评测关键技术选型思路
裴君君
平安人寿 质量管理团队 AI 及
大数据高级测试工程师
平安人寿-AI及大数据高级测试工程师,目前主要负责平安金管家APP内智能机器人(便捷服务)测试,保障便捷服务智能问答机器人查、问、办、销、诉智能体效果测试,对LLM、Agent在金融保险领域的效果进行多维度评测,落地了一套平安人寿特有的评测体系。
待定
待定
保险垂域智能体评测实践
议题背景:
随着企业AI IN ALL战略深入,智能体问答服务等AI产品大规模落地,传统人工评测面临三大核心痛点:一是评测语料依赖人工编写,覆盖率低、成本高、周期长;二是评测标准主观化,难以精准衡量智能体在复杂场景下的准确性与鲁棒性;三是测试流程被动执行,无法适配智能体快速迭代节奏。

为破解这些痛点,我们提出"AI测试AI"的新思路——构建基于GAIA评测框架的保险垂域自动化、多维化、闭环化的评测体系。在语料侧,用大模型按五维覆盖策略批量生成评测语料;在评测侧,代码化评测保障确定性判定,LLM裁判覆盖语义深度评估,人工标注兜底复杂场景校验,三轨互补消除主观偏差;在流程侧,将评测嵌入研发全流程,构建"意图识别→组件评测→端到端评测→性能评测→上线→Badcase回流"的闭环流水线,每阶段量化准入,生产Badcase自动转化为新评测集持续优化;在优化侧,引入GEPA技术实现提示词自动进化,让评测从终点变为优化的起点,形成"评测-优化-验证"的自进化飞轮。

内容大纲:
1. 背景与现状
    1.1 保险业务痛点:流程复杂、规则繁多、多轮交互需求高
    1.2 评测困境:传统静态评测无法覆盖动态业务场景,亟需新的评测范式
2. 困难与挑战
    2.1 四大核心难点:动态性、多轮交互、黑盒决策、业务合规
    2.2 范式转变:大模型评测"知不知道" → 智能体评测"做不做得到"
3. 评测体系实践
    3.1 GAIA框架在保险领域的落地思路
          3.1.1  GAIA核心思想:基于真实世界任务的端到端评测
          3.1.2 保险适配:将GAIA的通用任务转化为保险垂域任务(如:理赔申请、生存金领取、保单查询)
    3.2 评测流程闭环
          意图识别 → 组件评测 → 端到端评测 → 性能评测 → 正式上线 → Badcase回流
    3.3 三种评测手段
          3.3.1 代码化评测:自动化、高频、精准
          3.3.2 LLM-as-a-Judge:复杂语义、逻辑一致性
          3.3.3 人工标注:兜底、复杂场景校验
    3.4 评测指标体系
          3.4.1 基础执行能力(30%):应答准确率、任务结办率、工具调用成功率
          3.4.2 推理规划能力(25%):多步推理正确率、任务分解合理性
          3.4.3 交互协作能力(20%):多轮对话一致性、人机协作流畅度
          3.4.4 性能与鲁棒性(15%):响应时延、对抗鲁棒性、合规性
          3.4.5 泛化能力(10%):跨场景迁移成功率
    3.5 意图识别评测
          3.5.1核心指标:Accuracy、Macro-F1、OOS Recall、Slot F1
          3.5.2 语料构建:标准问+变体、边界+混淆、OOS检测
    3.6 组件评测:代码化
          3.6.1 工具调用准确率、调用顺序、传参格式正确率
    3.7 组件评测:LLM裁判
          3.7.1 六维评分:准确性25%、完整性20%、相关性20%、安全性15%、一致性10%、清晰度10%
    3.8 组件评测:GEPA自动优化
          3.8.1 基于DSPy,将Agent建模为DAG,帕累托前沿迭代进化提示词
    3.9 端到端与性能评测
          3.9.1 端到端:任务完成率、业务合规率、异常处理能力
          3.9.2 性能:TTFT、Latency P95、QPS、并发数
4. 总结与展望
    4.1 成果:建立了分层、多维、自动化的保险智能体评测体系
    4.2 展望:跨模态、动态自适应、安全评测等多维度在线评测
    4.3  远景:跨应用协同评测、实时在线评测、构建行业通用保险Agent评测基准

听众收益:
1. 创新思路启发:掌握“AI测试AI”的核心理念,打破传统评测的思维局限。
2. 技术方案借鉴:直接获取“模型集成+语料自优化”的完整技术架构与实现细节,可快速落地到自身项目。
3. 工具与框架复用:了解GEPA+Agno框架的选型与部署要点,少走自研弯路。
4. 效能提升参考:获得可量化的评测效率与质量提升数据,为内部项目提供说服力。

关注QECon公众号
关注QECon视频号
议题投稿 
speaker@qecon.com.cn
票务联系 
18649077637  Lily 
 
媒体合作
135-1619-6409  皮皮
商务合作
151-2264-3988  木子
购票咨询
18649077637  Lily
服务总线
400-183-9980  
电话咨询
联系电话:
18649077637  Lily