专场:大模型评测与质量保障
随着大模型能力的迅猛发展,各类LLM应用正在快速迭代并深入到我们日常生活和工作的各个层面。随之而来的问题是:如何全面、准确、高效地评测大模型和AI应用,持续驱动模型和产品迭代改进。这是各个AI产品团队都在探索实践的问题。
“大模型评测与质量保障”专场希望通过分享有效方法、先进工具和优秀实践,交流探讨、总结经验,帮助参与者了解LLM应用评测全过程,掌握先进的评测方法和技术,提升产品质量和智能化水平。
专场出品人:王一男
腾讯技术产品专家、智能化软件工程数据与评测团队负责人
曾任百度工程效能部产品负责人,开源中国产品总监。北京航空航天大学软件工程本科、硕士。致力于通过设计软件研发效率工具,推动软件工程实践落地来提升组织的研发效能。曾主笔制定企业软件工程规范,主导多个企业级研发效能平台的规划设计与系统开发。
范娜
华为云计算 研发大模型评测专家
华为云服务测试专家,华为研发大模型评测工作负责人,备10+年测试工作经验,7+年AI测试工作经验,在电信领域大小模型评测,研发大模型评测,AI辅助测试效能提升,安全测试认证,产品可信等领域具有较丰富的经验。
待定
待定
研发大模型评测探索与实践分享
智能开发助手,重塑了智能化软件研发的新范式,让开发者事半功倍。如何构建高质量评测集,高效开展模型效果评测,进行评测结果的有效分析,促进数据,算法,模型效果的有效优化,构建智能开发助手在代码生成,代码补全,研发问答,单元测试等核心场景竞争力,对测试人员提出了新的挑战。本议题从研发大模型评测方法介绍,评测集构建,评测分析及评测工程几个纬度进行实践效果分享。

内容大纲
1. 研发大模型评测方法介绍
    1.1 人工评测
    1.2 自动化评测
2. 研发大模型评测集构建
   2.1 通用评测集
   2.2 场景评测集
3. 研发大模型评测分析反馈
   3.1 验证评测集是否污染
   3.2 BadCase促进模型效果优化改进
4. 研发大模型评测工程实践介绍
    4.1 自动化脚本到评测系统落地实践

听众收益
研发大模型八大核心领域评测集构建,评测分析,评测工程化纬度可进行能力的复制。
黄一鹤
百度 资深工程师
百度TPG工程效能部 Comate Stack 团队资深工程师,目前主要负责百度AI原生研发新范式下,Prompt研发全流程、LLM和AI原生应用全场景效果评估的相关工具链建设。同时为智能体&RAG&多模态等典型应用场景提供高质量、高效率的评估解决方案。毕业后先后从事搜索引擎策略&架构质量保障、计算机视觉相关AI模型的算法测试&效果评测、测试在线化相关工具平台的开发工作。
待定
待定
大模型及AI应用效果评估实践
随着生成式AI技术的飞速发展,国内外LLM和AI原生应用的研发如火如荼。对于AI原生应用研发而言,需要验证使用的大模型以及最终应用是否能够达到预期效果,并持续迭代以和优化效果以提升用户满意度。与此同时,随着AI应用迭代越来越快,各产品都需要更频繁地开展效果评估工作。如何既能保证评估结果准确,又能大幅提升评估效率的自动化评估也越来越重要。

我们给大家带来大模型及AI原生应用效果评估上的实践,详细介绍如何使用工具快速构建评估体系、如何组织AI研发不同阶段的评估任务,以及如何使用平台提供的各项能力更高质量更高效率的完成评估工作,如何由浅入深地玩转自动化评估,帮助业务多快好省地完成效果评估工作。

内容大纲
1. 介绍评估的重要性:AI原生研发的最后一公里。
2. 介绍如何制定评估方案:
    2.1 典型的评估流程
    2.2 评估方案的组成部分
3. 详细介绍完整的评估流程(包括平台支持与实践)
    3.1 评估策略组成要素
    3.2 如何构建专业全面的评估集
    3.3 评估方式的对比与选择:人工评估、自动化评估
          3.3.1 人工评估:流程组织、评估技巧
          3.3.2 自动化评估提效:调研,解决方案——算法、定制、自定义。
    3.4 撰写专业全面的评估报告
4. 效果评估的不同应用场景及不同评估实践
    4.1 定期执行、批量对比
    4.2 效果监控
 
听众收益
 1. 如何针对产品、使用场景制定合适的评估方案;
 2. 如何制定人工评估的流程、规范、技巧
 3. 自动化评估解决方案
范昊天
字节跳动  资深算法工程师
曾就职于华为和创业公司,从事计算机视觉和多模态算法方向工作多年,目前在抖音智能评测实验室负责文生图客观评测体系建设;抖音智能评测实验室,面向抖音系业务算法的场景,提供评估数据集、智能评估工具和通用评测平台等基础能力,对算法模型在研发、准出和线上阶段提供提供科学、可信评估结论,反哺模型效果和安全的能力持续提升。
待定
待定
文生图效果智能化评估体系设计与实践
一画胜千言,正如这个古老的谚语所说,一张图的表现力要比一段单纯的文字要高出很多。当人们阅读文本故事时,他们可以通过想象力在脑海中绘制相关的图像,这有助于他们更好地理解和沉浸其中。随着深度学习的发展,文本到图像的生成任务已经成为一个热门的研究领域。从2015年至今,文生图技术取得了一系列突破。从2015年发布的AlignDRAW到近期大红大紫的stable diffusion、midjourney, 文生图AIGC技术完成了从0到1的突破,并已在设计、建筑、特效等多个行业发挥作用。

然而,对于AIGC T2I模型的评测一直是AIGC模型发展的一大痛点。如何评价一个生成模型的好坏,如何形成客观的AIGC模型评测体系,如何克服主观评测的差异性,都是承待克服的难点。出于这些痛点,我们从数据、标准、算法等多个角度出发,构建了更加全面、置信的文生图客观评测体系。

内容大纲
1. 当前业界文生图效果的评测的方法和痛点
    1.1 文生图模型基本原理
    1.2 文生图模型评测维度
    1.3 当前文生图效果评测的方法和局限性
2. 评测数据集的搭建
    2.1 T2IEVAL-Bench,业界最大的文生图EVAL Benchmark
    2.2 构建Benchmark的基本思路和实践
3. 智能化评测算法设计
    3.1 业界智能化评测指标综述
    3.2 大模型在智能化评测的效果和局限性
    3.3 轻量且高效的评测模型设计
4. 全流程平台化实践
    4.1 评测物料生产到评测报告产出的全流程自动化
    4.2 未来展望

听众收益
1. 理解AIGC文生图评估的基本方法
2. 了解学术界/工业界最前沿的T2I Eval benchmark设计思路
3. 了解自动化提效的算法设计和工程链路
黄立华
华为 GTS测试专家
华为 AMS 测试专家,测试TSE,负责GTS的智能化测试规划、演进、技术突破,长期从事大模型辅助测试实践和大模型产品测试,目前主要负责大模型产品质量保障测试,构建了大模型测试系统,主要聚焦大模型的测试集构建、测试集设计充分性评估、测试执行、性能基线测试、性能模高测试、性能风暴测试、性能长稳测试、性能AI FUZZ测试工作。

在大模型辅助使能测试方面,主要进行大模型辅助测试设计数据清洗、prompt构建和调优,大模型辅助测试设计和大模型辅助代码生成方面工作,Badusecase分析和改进。
待定
待定
大模型机器问答产品质量保障模型评测实践
大模型出来以后,所有产品都要使用大模型来提升质量和效率,那么产品加载大模型以后,对于测试来讲面对的是大模型产品如何测试,如何保障产品质量达成客户目标要求,测试面对的困难主要是
1. 测试周期不足,算法和功能测试无法满足版本发布周期要求(传统测试没有算法测试,在周期内有算法测试,整体测试周期无法满足项目要求);
2. 测试针对领域大模型如何测试;
3. 测试集如何快速构建和如何评估测试集构建充分性;
4. 测试集执行人工标注效率慢,无法满足版本发布要求;
5. 对于大模型的性能、安全测试不清楚如何测试。

内容大纲
1. 测试策略制定:构建滚动测试策略,把算法测试和应用测试分开测试,择优选择模型版本跟应用结合,分层测试,保障产品质量。模型版本按周迭代测试,测试周期由17人天缩短到11天,实现了模型测试质量和应用测试质量保障.
2. 测试设计:构建了大模型测试系统,实现了测试集的快速构建【正向构建、反向生产流量聚类补充、构建了14种鲁棒性测试集泛化构建能力】,目前构建测试集有10万+,通过大模型泛化+AI相似度聚类+流量回放技术实现测试集泛化
3. 测试设计评估:测试集构建基于prompt包含答案、prompt不包含答案,prompt包含部分答案等等价类划分来评估测试集构建的充分性,同时通过现网日志流量数据进行相似度算法聚类来评估测试集测试设计充分性。
4. 测试执行
    4.1 多维度过滤模板筛选测试集测试【顺序、随机】两种方式挑选
    4.2 各阶段环境拨测【生产环境拨测、UAT环境拨测、SIT环境拨测】
    4.3 历史测试任务测试集一键式重复执行
5. 测试评估
    5.1 自动化准确率评估【裁判大模型技术判定+专家规则判定】
    5.2 人工标注二次审核
    5.3 准确率看板【单次任务、总体任务】
          整体算法评测质量评估和每轮测试任务的执行自动评估。
6. 大模型性能测试
    6.1 性能压测模型生成
          6.1.1 性能基线测试
    6.2 性能FUZZ测试
    6.3 性能长稳测试执行【技术使用到了AI相似度算法、异常检测算法】
整体收益:
1. 接入产品3+个,累计接入环境6+套,测试集构建100万+,累计提交语料问题150+,算法问题350+,工程化问题500+;
2. 测试效率上从原来业务验收需要5天周期,缩短到3天周期,测试报告和测试评估直接测试系统取。

听众收益
1. 测试集如何构建和如何评估测试构建充分性;
2. 裁判大模型+专家规则+人工二次审核来保障测试评估的充分性
3. 大模型性能测试集压测模型生成,性能基线测试指标、性能模高测试、性能长稳测试、性能风暴测试、性能FUZZ测试的方法和方案。
屈凯旸
字节跳动 资深测试开发工程师
字节跳动抖音音乐团队高级测试开发工程师,目前主要负责字节跳动抖音系泛音乐业务的质量保障工作,毕业后曾就职于华为,从事泛音频评价算法开发、5G MAC层协议栈开发等工作;抖音智能评测实验室,面向抖音系业务算法的场景,提供评估数据集、智能评估工具和通用评测平台等基础能力,对算法模型在研发、准出和线上阶段提供提供科学、可信评估结论,反哺模型效果和安全的能力持续提升。
待定
待定
Byteval Lab AIGC音乐生成效果评测与平台实践
1. 问题背景:随着生成式人工智能大模型的兴起,例如suno、udio等音乐生成大模型也成为业界的热点,并逐步改变了流媒体平台的生产、制作与分发的流程,音乐大盘中AIGC比例逐步升高。
2. 技术痛点:音乐生成大模型提升了单位时间音乐生产效率, 降低音乐生成门槛,但是质量良莠不齐。区别于以往的人工制作音乐“量少而精”的情况,大模型带来了“量大且低分占比高”的新问题。与此同时,在大模型生产流程中,缺少权威的音乐内容和效果的自动化评价环节,而以往的主观评测速度又难以跟上大模型生产速度,进一步导致音乐生产出口端效率低下,发行速度慢,音乐收益提升进一步受到影响。全面性音乐效果的评价标准业界同样缺少,并且暂时没有专业的评价平台承载全流程评测。
3. 思考方向:需要建立音乐质检权威指标与相应自动化平台能力。建立专业标准以提升评价结果的置信度和有效性,建立串联产研QA以及外部音乐人的平台以提升音乐业务效果的泛化性。进一步优化AIGC音乐与传统音乐质检的效率,降低音乐生成门槛,提升对优质歌曲的鉴别、劣质歌曲的打压能力,帮助音乐产业进一步获得商业成功。

内容大纲
1. 音乐大模型的产业现状
   1.1 AI音乐三个发展阶段
   1.2 典型的音乐生成式模型和公司
   1.3 抖音音乐当前的大模型现状
2. 音乐评价的渐进式思路
    2.1 主观评测
    2.2 乐理权重拟合式评价
    2.3 乐理结构模型化评价
    2.4 使用大模型智能式评价
3. 评测流程的聚合与提效
   3.1 自动化LLM对音乐等原子能力的跨模态聚合实践
   3.2 Byteval平台的能力地图与具体数据
   3.3 评测平台对音乐产业的后续提升思考

听众收益
给互联网、流媒体和音乐软硬件公司、高校研究者与音乐爱好者启发与借鉴,帮助共建良好的音乐、短视频配乐产业生态,提供交流与合作的平台。
关注QECon公众号
议题投稿
lijie@qecon.net
商务合作
151-2264-3988  木子
票务联系
135-2067-8913  郭梦媛
媒体合作
135-1619-6409  皮皮
添加QECon小助手,获取
会议最新资讯
购票咨询
13520678913  郭梦媛
服务总线
400-183-9980