专场:AI原生应用的质量评测
当前 AI Agent 领域 “开发易、落地难” 矛盾突出,“一周出 demo,半年难实用” 成通病,传统评估体系难适配其复杂能力,构建新型评测体系是破局关键。本次【AI 原生应用的质量评测】专场以 “助力 AI Agent 企业落地” 为核心,聚焦三大核心方向:针对 Agent 从起步即指数级增长的规划与链路复杂度,深入解析 “分层测试” 解法,明确 Agent 测试的分层逻辑;打破 “AI 无需清晰结果” 误区,强调其 “千人千面” 特性下行为与结果设计的重要性,拆解具体方法;围绕全生命周期,分享平台、Rag、知识工程等模块的保障方案与实践。专场以 “痛点 - 解法 - 实践” 闭环,为行业提供科学高效的评测体系构建路径,推动技术从 demo 走向实用。
专场出品人:黄闻欣
腾讯 技术总监
自 2009 年加入腾讯以来,曾管理系统测试团队,性能专项工程团队和可观测 RUM 的业务团队,深耕技术管理和团队效能提升、 AI 赋能。当前,腾讯云性能工程建设之外,还负责腾讯云可观测 AI 产品和业务,期望 AI 可以让专家经验普惠到每一个研发,让企业通过开放式的 AI 打造自己独有的竞争力。
陈永健
华为 GTS平台测试总工 TSE leader
华为运营商领域平台测试总工,6级专家,19年软件测开经验,目前主要负责华为运营商软件GDE-Next数智转型与AI云原生平台开发测试,长期专注测试技术发展,在AI系统评测、混沌工程(高可靠性测试)、生态兼容性测试、自动化测试、性能与仿真测试等领域有深入探索,支撑和保障全球300+运营商客户稳定运营。
待定
待定
NLP类AI系统鲁棒性评测挑战与实践
尽管大模型对自然语言处理能力越来越强大,但在行业实际应用中,如网络智能运维等场景中,受限于不同用户输入语言指令的表达差异及可能输入偏差,AI系统实际表现往往无法让人100%满意,那么如何系统化评估AI系统的鲁棒性就成了产品上线是否成功的重要课题,什么是好的鲁棒性评测集设计?过度“扰动”和“扰动”不足,在哪“扰动”都会影响鲁棒性评价结果,如何把握好输入“扰动”是一个巨大挑战

内容大纲
1. AI产品能否成功取决于鲁棒性
    1.1 AI产品好的体验首先是鲁棒性
    1.2 评测鲁棒性面临的关键挑战
2. 华为NLP类AI系统鲁棒性评测探索
    2.1 NLP类AI系统鲁棒性评测痛点
    2.2 华为运营商领域对AI系统鲁棒性评测的理解
    2.3 NLP类AI系统鲁棒性评测解决方案
3. 
智能问答\NL2SQL\代码生成等典型业务场景中实践效果
    3.1 智能问答场景鲁棒性评测实践效果和注意点
    3.2 NL2SQL场景鲁棒性评测实践效果和注意点
    3.3 代码生成场景鲁棒性评测实践效果和注意点

听众收益
了解华为对AI系统鲁棒性评测方法论,及实践中遇到的问题及解决方案
黄闻欣
腾讯 技术总监
.....
待定
待定
从监控角度来看Autonomous Agent的质量保障
....
胡应广
华为 GTS平台 AI原生产品测试专家
华为ICT软件测试工程与自动化专家,10年以上云原生软件测试开发相关工作经验,目前主要负责GTS产品线AI原生应用评测系统的构建和AI辅助研发质效提升项目探索与实践。
待定
待定
华为Code Agent智能体测评实践
华为Code Agent是面向电信领域应用E2E开发智能体,覆盖需求分析Agent,设计Agent,开发Agent, DT Agent,质检Agent等全流程应用开发智能体,如何开展评测面临巨大挑战。

内容大纲
1. 华为Code Agent 产品背景和测试诉求介绍
2. 需求Agent评测挑战和测试解决方案
3. 设计Agent评测挑战和测试解决方案
4. 开发Agent评测挑战和测试解决方案
5. DT Agent评测挑战和测试解决方案
6. 质检Agent评测挑战和测试解决方案
7. 局点与网上运行业务效果
8. 总结与展望

听众收益
了解华为Code Agent E2E全流程测评实践
付宇
蚂蚁集团 支付宝行业质量技术负责人
蚂蚁集团支付宝技术部 资深测试开发专家,担任过多个行业重大项目的质量保障1号位(余额宝、乘车码、杭州亚运会、健康码等),目前负责行业质量技术团队,专注于支付宝出行酒旅、政务民生等行业的技术风险保障,以及行业智能体算法评测领域的技术创新攻坚。
待定
待定
从实验室到真实办事场景:支付宝行业智能体评测的探索与实践
本议题聚焦于行业智能体规模化落地过程中的评测体系建设难题,旨在解决以下核心问题:
1. 行业评测置信度:支付宝行业智能体需要覆盖海量用户与场景,出行、政务等行业场景对于核心模块(planning、tool以及RAG等)的要求差异较大,需要基于行业benchmark驱动考纲与考题的持续完善,逐步趋近于真实行业场景与用户个性化偏好。
2. 行业评测集规模与质量:行业评测集规模不足会导致关键场景或意图遗漏、评测结果不稳定、模型过拟合等风险,需要通过合成数据技术实现规模化的覆盖(百万级);合成数据质量也会直接影响评测结果可信度,如何结合支付宝行业场景以及用户个性化偏好来规模化生成高质量评测数据,并模拟真实用户画像与行为特征与目标智能体交互,也是需要解决的核心问题之一。
3. 行业评测效率与成本:单轮评测量级超过十万规模,传统人工评测成本高、效率低,难以支撑行业规模化评测的提效诉求。需要基于行业知识、用户偏好以及相关多模态数据构建行业judge model对目标智能体的效果进行全链路的评估,提升端到端的评测效率。

内容大纲
1. 支付宝行业智能体背景与技术挑战(规模覆盖、评测效率与置信度)
2. 支付宝行业智能体Benchmark(出行/政务,planning/tool/高质量合成数据)
3. 支付宝行业智能体评测框架(合成数据、智能标注、数据质量等)
4. 个性化Evaluation Agent在行业智能评测的实践(就业AI面试、车机场景等)
5. 未来展望
 
听众收益
1.开放的行业智能体评测方案(出行酒旅、政务民生等行业benchmark设计)
2.灵活高效的行业智能体评测框架,包括但不限于:规模化(百万级)&高质量的行业数据合成方案、高效的行业智能标注归因能力等
3.更懂用户的行业智能评测Agent(基于用户画像个性化+多模态的Evaluation Agent驱动)

关注QECon公众号
关注QECon视频号
议题投稿
lijie@qecon.net
商务合作
151-2264-3988  木子
票务联系
186-4907-7637 胡利利 
媒体合作
135-1619-6409  皮皮
购票咨询
胡利利 18649077637
服务总线
400-183-9980  
电话咨询
联系电话:
胡利利 18649077637