专场:大模型评测体系与行业实践
随着大模型能力的持续突破,LLM技术已深入产业核心场景,推动各行各业的智能化转型。在此背景下,如何构建科学、系统的大模型评测体系以及如何结合行业应用需求来进行评估和验证,成为推动AI应用落地的关键命题。本专场将聚焦大模型评测框架设计、行业基准构建、技术-场景对齐等核心议题,通过分享前沿方法论、跨领域协作经验及典型行业案例(如金融、医疗、教育等),助力企业建立可量化、可复用的评估标准,加速大模型的规模化应用。
专场出品人:朱少民 
QECon发起人  CCF杰出会员 《软件工程3.0》作者
同济大学特聘教授、CCF杰出会员、CCF 质量工程SIG主席、软件绿色联盟标准评测组组长,拥有个人公众号 “软件质量报道”。先后获得多项科技进步奖,出版了二十多部著作和4本译作,其代表作有:《全程软件测试》、《敏捷测试:以持续测试促进持续交付》、《软件测试方法和技术》、《软件质量保证与管理》等。经常作为大会联席主席、论坛主席或专场出品人、演讲嘉宾等出席国内技术大会,曾任IEEE ICST 2019工业论坛主席、多个软件测试国际学术会议程序委员、思科(中国)软件有限公司QA高级总监等。
崔润泽
支付宝  高级测试开发工程师
蚂蚁集团行业技术部智能质量组高级测试开发工程师,目前主要负责蚂蚁行业大模型的评测工作,保障出行酒旅、政务民生等行业大模型线上效果水位。
待定
待定
基于行业benchmark的智能体评测
随着支付宝业务深度耦合大模型技术,如何在算法研发高速迭代和业务需求快速上翻的双重挑战下,保障线上模型水位,守护行业业务质量,成为了亟待解决的问题。与传统业务质量不同,大模型评测是一个全新的质量保障领域。
通过对大模型技术的深入了解,结合在质量保障领域的历史经验,本团队尝试打造一个完备、高效的大模型评测体系,助力业务发展。

内容大纲
1. 背景介绍
    1.1 行业业务简介
2. 行业评测全流程
    2.1 评测与传统软件测试对比
    2.2 评测sop
    2.3 痛点分析
3. 智能评测技术 - 高效评测
    3.1 合成数据
    3.2 标注模型
4. badcase挖掘技术
    4.1 问题归因
    4.2 问题挖掘

听众收益
可以给与大模型技术相关的业务质量团队提供良好的模型评测经验借鉴。
彭晓茂
支付宝 测试开发专家
蚂蚁集团支付宝技术部团队测试开发专家,先后负责过支付宝营销产品、大促活动、商家平台的业务质量和保障体系的建设,主导了大促活动保障平台、智能化评测平台的总体设计和实现。 毕业后曾就职于百度,具备营销质量领域的数据分析挖掘经验。
待定
待定
支付宝商家业务增长引擎效果评测提效实战
针对支付宝的商家经营智能体、电商搜推场景及商业策略涉及到的各类评测痛点,设计了一套高效接入、定制化评测、全流程编排的评测平台架构,实现了包含评测数据集准备与评估、评测执行、评测结果分析与报表展示、badcase管理与回测等环节的全流程全自动化评测执行的方案,最终形成了对应业务研发和质量自主使用的一站式评测平台,在问题定位、有效实验、指标树关联分析、迭代驱动等环节全面提升了效率。

内容大纲
1. AI评测流程包含从评测数据准备、到评测执行、再到结果分析与回测等环节,流程很长,步骤较多。如果每个业务评测都从头到尾完成全部工作,评测成本会非常高。如何抽象评测流程的共性问题,减少各个业务场景的评测成本。
2. 数据集评估、评测结果分析等环节需要实现有深度的评测能力,这里通过实现一个百花齐放的评测平台生态,使强大的评测能力能够被评测平台低成本接入,并可提供给更多类似评测能力的业务场景复用,降低更多业务场景自主开发评测能力的成本。
3. 评测环节会涉及到工程/算法研发、工程/算法质量,及至产品、运营等角色的参与,如果评测的各个环节割裂,会导致信息不透明,结果不客观,使用不方便。如何设计全流程一站式在线化的接入和使用方式,使各类用户使用更方便,结果也更置信。

听众收益
1. 各个公司涉及AI评测的场景可以借鉴这里的思路和平台建设方法去抽象通用的评测流程能力和建设一站式的评测平台,减少各个业务场景的学习成本和评测成本。
2. 这里也会介入平台接入的评测流程中每个环节比较强大和好用的能力和思路,包括数据集评估、评测结果分析、badcase回测、研发平台自动流转等,大家可以借鉴这里面的思路和能力,去提升评测的准确性、提升整个业务场景的评测效能。

罗军(无过)
支付宝 AI多模态评测负责人
支付宝多媒体及算法质量技术负责人,主要负责支付宝底层多媒体技术质量及音视频效果评测、负责支付宝AI应用质量及多模态算法评测,构建了蚂蚁集团多模态评测基准MMEVA(百万级别)和多模态的大模型评测能力矩阵,AIGC商品图评测方案入选AAAI2025,国内/国际首批AIGC质量标准核心参编者。
待定
待定
基于大模型的AI多模态评测
随着AI的爆发,多模态算法也越来越多地被应用在AI上,如何准确地评测语音(ASR/TTS)、图片(AIGC)、视频(编解码/增强)的算法效果,牵引算法在正确的方向上迭代,成为一个重要课题,同时面对算法生产效率的骤增,还必须相应地提高评测效率,这成为一个新挑战,我们采取了用魔法打魔法、用大模型评测大模型的实践路径。

内容大纲
1. 支付宝AI多模态应用场景(语音、视频、AIGC生图、人脸识别、智能零售、万物识别)
2. 语音算法评测(ASR/TTS 评测指标、评测集、语音情感评测大模型、评测效果)
3. AIGC生图算法评测(评测指标、经典评测工具集、大模型评测方案、评测效果)
4. 视频编解码算法评测(评测指标、评测集、视频画质评测大模型、评测效果)
5. 多模态评测总结(多模态评测benchmark、音/画/视频评测大模型矩阵、标准/认证等)

听众收益
1. AI时代如何让评测效率跟上算法发展要求,采取大模型评测大模型的思路
2. 对于AIGC生图这类新场景,如何准确定义问题、设定指标,给出我们的思考
3. 对于支付宝海量用户的AI应用场景,如何保障质量和效果,给出我们的实践
4. 开放共享支付宝多模态评测大模型能力和产品,让大家直接用提高效率

汪璐璐
TME  专项测试高级工程师
工作6年,东南大学硕士,毕业后入职 TME,长期从事音视频算法类测试开发工作。
目前在腾讯音乐负责算法效果类专项测试及主客观评估工具开发落地,包括音视频专项质量保障、AIGC 生成内容质量保障以及客观评测模型研发落地等。研究方向包括算法效果类评测、主客观评价、评价标准&工具。
待定
待定
大模型时代AIGC生成音频质量保障建设
在大模型时代,涌现了大量 AI 生成内容,在音频领域有 TTS、TTM、TTA 等生成类音频,相较于传统由真人制作的音频内容,AIGC 类音频的评估面临更大的挑战,如何评估量级以及评价效果,并且反推算法进一步的优化生成效果,这个是音频质量评估团队面临的挑战,我们将从标准、评价工具以及评估算法等多个维度,建设 AIGC 音频的评估体系,确定大模型时代能有更多的生成音频落地业务,给用户带来更完美的音频感受。

内容大纲
1. AIGC音频场景的介绍:TTS、TTM、TTA(SVC/SVS)等音频生成场景
2. 不同生成音频算法的特点&评价区别
    2.1 大模型 TTS :音质、音色、韵律、真人感等标准的制定
    2.2 大模型 TTA : few-shot&zero-shot 歌声合成,涉及音色相似性、音质、音频本身好听度等
    2.3 大模型 TTM : 类似 suno、udio 等音乐生成大模型,需要从音频质量、歌词质量以及音乐性、美学效果等多维度评价
          生成音频的质量
3. 不同类型业务&模型的质量评价体系建设
4. 提效工具链&前置算法优化支持
5. 未来规划&展望

听众收益
提供可借鉴的评估体系建设方法论、可复用的工具和评价模型、部分工具可以开源支持等。

关注QECon公众号
关注QECon视频号
议题投稿 
lijie@qecon.net  
票务联系 
159-0126-5561  小娟
 
媒体合作
135-1619-6409  皮皮
商务合作
151-2264-3988  木子
购票咨询
15901265561  小娟         
服务总线
400-183-9980