蚂蚁数科专场:AI Agent质量评测
当前AI Agent领域正面临"开发易、落地难"的典型矛盾,行业普遍存在"一周出demo,半年难实用"的困境。随着AI技术进入下半场,行业开始把目光投向真正的效用价值,从根本上反思和创新“评估”体系,用新的评估标准倒逼AI方法和应用创新。AI Agent作为蚂蚁数科的核心战役,我们也一直追求真正的效用价值,为了支撑产品落地交付,我们建立了一套能够驱动Agent效果优化的评测体系。本次「蚂蚁数科专场:AI Agent质量评测」分论坛,将聚焦真正在企业落地的AI Agent领域相关的质量和评测工作,围绕Agent的全生命周期,探讨Agent平台以及各个模块(Rag、知识工程、工具调用、MCP)的质量保障方案、评测标准、方法论和实践。
专场出品人:张立华
蚂蚁数科 质量负责人
负责数科质量团队的建设和技术布局及落地,识别关键矛盾,建设有数科特色的质量体系,支撑公司业务和战略。
多年的移动互联网业务和2B业务质量保障经验,在区块链和AI等业务质量领域有着丰富的沉淀和建树。
陈莹莹
蚂蚁数字科技 ⾼级测试开发⼯程师
数科AI业务质量组,⽬前担任数科AI Agent平台业务质量负责⼈,全⾯负责AI Agent全⽣命周期的质量保障⼯作,包括智能体评测及质量专项建设等。毕业后,曾在浙江⼤华及蚂蚁集团任职,专注于业务质量标准化与度量体系的建设、业务全⽣命周期质量保障、AI性能评测以及AI安全评测等领域的深度探索与实践。
待定
待定
蚂蚁数科Agentar智能体平台质量保障体系实践和落地
1. Agentar智能体平台简介
    1.1 Agentar平台核⼼能⼒
    1.2 Agentar平台技术架构
    1.3 Agentar智能体应⽤场景
2. Agentar智能体平台质量保障重要性&挑战
    2.1 质量保障重要性
          2.1.1 ⾼质量对客户信任和业务发展的关键作⽤
          2.1.2 垂类场景中智能体性能、效果、安全性的直接影响
    2.2 质量保障挑战
          2.2.1 迭代周期紧张
          2.2.2 私有化交付复杂性
          2.2.3 多版本重复测试
          2.2.4 标准化不⾜
          2.2.5 智能体评测难度⾼
3. Agentar智能体平台质量保障策略
          3.1 标准化体系构建
          3.2 效能提升策略
          3.3 多维度评测框架
4. Agentar智能体平台质量保障实践
          4.1 ⾃动化提效实践
          4.2 流式会话性能测试平台建设
          4.3 智能体评测体系落地
5. 总结 & 展望
          5.1 当前质量保障⼯作的总结
          5.2 未来发展⽅向与⽬标
陈新
 蚂蚁数字科技 测试开发专家
AI业务质量组,⽬前是AI Agent以及⼤模型应⽤效果评测平台负责⼈,主要负责AI 智能体评测标准制定、评测智能体搭建以及⼀站式效果评测平台建设等⼯作。毕业后就职过思科、蚂蚁集团,主要负责业务全⽣命周期的质量保障和⼯具平台建设,作为第⼀发明⼈获得1项专利局已授权的发明专利。
待定
待定
蚂蚁数科企业智能体评测实践和探索
1. 智能体评测的重要性和挑战
    1.1 什么是智能体评测 & 评测⾯临挑战
    1.2 智能体效果评测的痛点
2. 智能体评测的⽬标&策略
    2.1 智能体评测⽬标
    2.2 智能体评测策略
3. 智能体评测体系建设实践
    3.1 评测数据集构建
    3.2 评测标准体系构建
    3.3 ⾃动化评测⽅案
    3.4 智能体性能&安全评测⽅案
4. 智能体评测商业化交付实践
    4.1 ⾯向交付的智能体评测最佳实践
    4.2 ⼀站式智能体评测平台
5. 总结 & 展望
李程
蚂蚁数字科技 ⾼级测试开发专家
数科平台智能质量组质量负责⼈,负责AI云平台,知识⼯程等相关AI-paas等产品的质量保障⼯作,专注于建设⾯向⾦融,企业级稳健的质量保障体系。先后就职于淘天集团,蚂蚁集团专注于⾃动化,质量能⼒建设,AI效果评测,以及AI对测试技术发展影响。
待定
待定
蚂蚁数科知识⼯程评测:
构建高效评估体系推动企业级智能体进化与落地
1. 评测的战略价值与挑战
    1.1 RAG评测的特殊性与业务⻛险
    1.2 评测失效的典型代表案例
2. 评测⽅案设计四要素
    2.1 ⽬标定义:场景化KPI拆解
    2.2 指标体系:检索/端到端/子节点多维度指标
    2.3 数据策略:测试集构建⽣成策略
    2.4 ⼯具选型:⾃动化框架集成与可插拔设计
3. 评估全流程实践
    3.1 数据集构建:覆盖性/真实性/扰动性
    3.2 ⽩盒化:RAG链路⽩盒化结合
    3.3 策略设计:模块诊断与端到端验证
    3.4 评测⽅式:⾃动化为主⼈⼯为辅的提效⽅案
    3.5 报告输出:问题定位与优化建议
4. 场景化应⽤与效能提升
    4.1 指导性调优:批量对⽐与参数调优
    4.2 链路升级评估:算法链路效果对⽐
    4.3 ⼯具链闭环:从评估到迭代的加速验证
5. 当前思考与下⼀步展望
   5.1 思考总结
   5.2 未来展望
关注QECon公众号
议题投稿
lijie@qecon.net
商务合作
151-2264-3988  木子
票务联系
135-2067-8913  郭梦媛
媒体合作
135-1619-6409  皮皮
添加QECon小助手,获取
会议最新资讯
购票咨询
13520678913  郭梦媛
服务总线
400-183-9980