专场:评测驱动研发新范式(Evaluation-Driven Development)
人工智能正经历从“技术概念”到“产业深耕”的关键跃迁,以大模型为核心的AI智能体已深度渗透至各行各业的核心领域,重塑行业服务范式。在新的技术浪潮下,评测不应仅仅是上线前的“质检员”,而应成为贯穿需求定义、算法选型到线上迭代全生命周期的“指挥棒”。
本专场深入解析“评测驱动开发(Evaluation-Driven Development, EDD)”新范式,覆盖智能体产研的全生命周期:从设计阶段的评测基准(Benchmark)设计与高质量评测数据合成,到评测自动化框架与模型训练的深度集成,以及通过User Simulator、线上实验等方案实现评测与用户体验的精准对齐等议题。我们将结合前沿方法论与行业实战案例,展示如何构建高置信度且实时反馈的评测数据飞轮,助力智能体业务实现高质量的规模化增长。