AI原生应用的质量评测-2025北京站_QECon全球软件质量效能大会-橙柚科技

优惠倒计时

8折票抢购中

团购享受更多优惠

北京站 · 10月31-11月1日

上海站 · 9月12-13日

深圳站 · 5月23-24日

专场：AI原生应用的质量评测

当前 AI Agent 领域 “开发易、落地难” 矛盾突出，“一周出 demo，半年难实用” 成通病，传统评估体系难适配其复杂能力，构建新型评测体系是破局关键。本次【AI 原生应用的质量评测】专场以 “助力 AI Agent 企业落地” 为核心，聚焦三大核心方向：针对 Agent 从起步即指数级增长的规划与链路复杂度，深入解析 “分层测试” 解法，明确 Agent 测试的分层逻辑；打破 “AI 无需清晰结果” 误区，强调其 “千人千面” 特性下行为与结果设计的重要性，拆解具体方法；围绕全生命周期，分享平台、Rag、知识工程等模块的保障方案与实践。专场以 “痛点 - 解法 - 实践” 闭环，为行业提供科学高效的评测体系构建路径，推动技术从 demo 走向实用。

专场出品人：黄闻欣

腾讯技术总监

自 2009 年加入腾讯以来，曾管理系统测试团队，性能专项工程团队和可观测 RUM 的业务团队，深耕技术管理和团队效能提升、 AI 赋能。当前，腾讯云性能工程建设之外，还负责腾讯云可观测 AI 产品和业务，期望 AI 可以让专家经验普惠到每一个研发，让企业通过开放式的 AI 打造自己独有的竞争力。

陈永健

华为 GTS平台测试总工 TSE leader

华为运营商领域平台测试总工，6级专家，19年软件测开经验，目前主要负责华为运营商软件GDE-Next数智转型与AI云原生平台开发测试，长期专注测试技术发展，在AI系统评测、混沌工程（高可靠性测试）、生态兼容性测试、自动化测试、性能与仿真测试等领域有深入探索，支撑和保障全球300+运营商客户稳定运营。

待定

NLP类AI系统鲁棒性评测挑战与实践

尽管大模型对自然语言处理能力越来越强大，但在行业实际应用中，如网络智能运维等场景中，受限于不同用户输入语言指令的表达差异及可能输入偏差，AI系统实际表现往往无法让人100%满意，那么如何系统化评估AI系统的鲁棒性就成了产品上线是否成功的重要课题，什么是好的鲁棒性评测集设计？过度“扰动”和“扰动”不足，在哪“扰动”都会影响鲁棒性评价结果，如何把握好输入“扰动”是一个巨大挑战

内容大纲
1. AI产品能否成功离不开鲁棒性
1.1 AI产品好的体验首先是鲁棒性
1.2 评测鲁棒性面临的关键挑战
2. 华为NLP类AI系统鲁棒性评测探索
2.1 NLP类AI系统鲁棒性评测痛点
2.2 华为运营商领域对AI系统鲁棒性评测的理解
2.3 NLP类AI系统鲁棒性评测解决方案
3. 智能问答\NL2SQL\代码生成等典型业务场景中实践效果
3.1 智能问答场景鲁棒性评测实践效果和注意点
3.2 NL2SQL场景鲁棒性评测实践效果和注意点
3.3 代码生成场景鲁棒性评测实践效果和注意点

听众收益

了解华为对AI系统鲁棒性评测方法论，及实践中遇到的问题及解决方案

黄闻欣

腾讯技术总监

自 2009 年加入腾讯以来，曾管理系统测试团队，性能专项工程团队和可观测 RUM 的业务团队，深耕技术管理和团队效能提升、 AI 赋能。当前，腾讯云性能工程建设之外，还负责腾讯云可观测 AI 产品和业务，期望 AI 可以让专家经验普惠到每一个研发，让企业通过开放式的 AI 打造自己独有的竞争力。

待定

用监控打磨 Autonomous Agent：从有限到无限的评测之道

我将把传统“有限游戏”的可控性，带入 AI Agent 的“无限游戏”。围绕“监控—评测—闭环”，分享如何用分层指标与归因，让难以度量的 Agent 效果变得可观察、可优化。通过真实使用数据反哺“理想态”，以及端到端性能/成本的量化方法，给出一套能落地的质量提升路径。

内容大纲
1. 从有限到无限：质量观的迁移
1.1 开场隐喻：小盘到大盘，为什么 Agent 的质量更像“无限游戏”
1.2 痛点聚焦：主观性强、链路长、难归因
2. 三层闭环：指标与方法
2.1 单元层：可校验的对错，JSON 合规、工具异常率
2.2 集成层：可度量的好坏，规划→检索→工具→生成的“归因”
2.3 端到端层：让结果可度量好坏，理想态 + LLM-as-judge
3. 通过监控，让性能与成本可观测
3.1 客户端 SSE 监控
3.2 基于 OTel 和普罗米修斯的监控

听众收益
1. 学会为 Agent 建立“单元—集成—端到端”的评测与监控闭环
2. 掌握归因，缩短问题定位时间
3. 能用真实使用数据完善评测集与产品设计
4. 一套度量性能与成本的方法

胡应广

华为 GTS平台 AI原生应用评估专家

华为ICT软件测试工程与自动化专家，10年以上云原生软件测试开发相关工作经验，目前主要负责GTS产品线AI原生应用评测系统的构建和AI辅助研发质效提升项目探索与实践。

待定

华为应用开发Agent自动化评测实践

华为Code Agent是面向电信领域应用E2E开发智能体，覆盖需求分析Agent，设计Agent,开发Agent, DT Agent，质检Agent等全流程应用开发智能体，如何开展评测面临巨大挑战。

内容大纲
1. 华为ADC应用开发平台介绍
2. CodeAgent评测挑战与总体思路
2.1 Code Agent 评测面临的挑战
2.2 Code Agent 测评分层E2E全景
2.3 Code Agent 评测试集构建总体思路
2.4 Code Agent 智码整体评测框架
2.5 需求分析Agent被测对象分析与评测标准
2.6 开发Agent-领域代码脚本生成与测评集构建
2.7 搜读&问答Agent测评集与评测标准
3. Agent评测标准与体验一致性优化
4. AI原生应用自动评测系统构建思路
4.1 构建快速响应的全自动评测系统
4.2关键技术点：裁判智能体（Agent AS A Judge）
4.3 关键技术点：开发Agent-领域代码脚本生成评测
4.4 关键技术点：基于代码生成价值的量化评测算法（RoES）
4.5 关键技术点：基于大模型代码生成评测Agent
4.6 关键技术点：代码多指标的综合评测标准
4.7 关键技术点：测试集构建与测试集泛化
5. 总结与展望

听众收益
了解华为Code Agent E2E全流程测评实践

付宇

蚂蚁集团支付宝行业质量技术负责人

蚂蚁集团支付宝技术部资深测试开发专家，担任过多个行业重大项目的质量保障1号位（余额宝、乘车码、杭州亚运会、健康码等），目前负责行业质量技术团队，专注于支付宝出行酒旅、政务民生等行业的技术风险保障，以及行业智能体算法评测领域的技术创新攻坚。

待定

从实验室到真实办事场景：支付宝行业智能体评测的探索与实践

本议题聚焦于行业智能体规模化落地过程中的评测体系建设难题，旨在解决以下核心问题：
1. 行业评测置信度：支付宝行业智能体需要覆盖海量用户与场景，出行、政务等行业场景对于核心模块（planning、tool以及RAG等）的要求差异较大，需要基于行业benchmark驱动考纲与考题的持续完善，逐步趋近于真实行业场景与用户个性化偏好。
2. 行业评测集规模与质量：行业评测集规模不足会导致关键场景或意图遗漏、评测结果不稳定、模型过拟合等风险，需要通过合成数据技术实现规模化的覆盖（百万级）；合成数据质量也会直接影响评测结果可信度，如何结合支付宝行业场景以及用户个性化偏好来规模化生成高质量评测数据，并模拟真实用户画像与行为特征与目标智能体交互，也是需要解决的核心问题之一。
3. 行业评测效率与成本：单轮评测量级超过十万规模，传统人工评测成本高、效率低，难以支撑行业规模化评测的提效诉求。需要基于行业知识、用户偏好以及相关多模态数据构建行业judge model对目标智能体的效果进行全链路的评估，提升端到端的评测效率。

内容大纲
1. 支付宝行业智能体背景与技术挑战（规模覆盖、评测效率与置信度）
2. 支付宝行业智能体Benchmark（出行/政务，planning/tool/高质量合成数据）
3. 支付宝行业智能体评测框架（合成数据、智能标注、数据质量等）
4. 个性化Evaluation Agent在行业智能评测的实践（就业AI面试、车机场景等）
5. 未来展望

听众收益
1．开放的行业智能体评测方案（出行酒旅、政务民生等行业benchmark设计）
2．灵活高效的行业智能体评测框架，包括但不限于：规模化（百万级）&高质量的行业数据合成方案、高效的行业智能标注归因能力等
3．更懂用户的行业智能评测Agent（基于用户画像个性化+多模态的Evaluation Agent驱动）