专场:评测驱动研发新范式(Evaluation-Driven Development) 
人工智能正经历从“技术概念”到“产业深耕”的关键跃迁,以大模型为核心的AI智能体已深度渗透至各行各业的核心领域,重塑行业服务范式。在新的技术浪潮下,评测不应仅仅是上线前的“质检员”,而应成为贯穿需求定义、算法选型到线上迭代全生命周期的“指挥棒”。
本专场深入解析“评测驱动开发(Evaluation-Driven Development, EDD)”新范式,覆盖智能体产研的全生命周期:从设计阶段的评测基准(Benchmark)设计与高质量评测数据合成,到评测自动化框架与模型训练的深度集成,以及通过User Simulator、线上实验等方案实现评测与用户体验的精准对齐等议题。我们将结合前沿方法论与行业实战案例,展示如何构建高置信度且实时反馈的评测数据飞轮,助力智能体业务实现高质量的规模化增长。
专场出品人:付宇
支付宝技术部 行业质量与评测技术负责人
毕业于上海交大,在DFKI GmbH从事NLP相关工作。曾担任过余额宝、乘车码、健康码等多个国民级应用的质量保障1号位。现专注于政务民生、出行酒旅、就业与物流等行业的技术风险保障,致力于行业AI助手评测技术体系的创新攻坚,助力算法敏捷迭代与效果提升。
敬请期待
......
.....
待定
待定
敬请期待
....
关注QECon公众号
关注QECon视频号
议题投稿 
lijie@qecon.net  
票务联系 
18649077637  Lily 
 
媒体合作
135-1619-6409  皮皮
商务合作
151-2264-3988  木子
购票咨询
18649077637  Lily
服务总线
400-183-9980  
电话咨询
联系电话:
翟国娟 15901265561