大模型出来以后,所有产品都要使用大模型来提升质量和效率,那么产品加载大模型以后,对于测试来讲面对的是大模型产品如何测试,如何保障产品质量达成客户目标要求,测试面对的困难主要是
1. 测试周期不足,算法和功能测试无法满足版本发布周期要求(传统测试没有算法测试,在周期内有算法测试,整体测试周期无法满足项目要求);
2. 测试针对领域大模型如何测试;
3. 测试集如何快速构建和如何评估测试集构建充分性;
4. 测试集执行人工标注效率慢,无法满足版本发布要求;
5. 对于大模型的性能、安全测试不清楚如何测试。
内容大纲
1. 测试策略制定:构建滚动测试策略,把算法测试和应用测试分开测试,择优选择模型版本跟应用结合,分层测试,保障产品质量。模型版本按周迭代测试,测试周期由17人天缩短到11天,实现了模型测试质量和应用测试质量保障.
2. 测试设计:构建了大模型测试系统,实现了测试集的快速构建【正向构建、反向生产流量聚类补充、构建了14种鲁棒性测试集泛化构建能力】,目前构建测试集有10万+,通过大模型泛化+AI相似度聚类+流量回放技术实现测试集泛化
3. 测试设计评估:测试集构建基于prompt包含答案、prompt不包含答案,prompt包含部分答案等等价类划分来评估测试集构建的充分性,同时通过现网日志流量数据进行相似度算法聚类来评估测试集测试设计充分性。
4. 测试执行
4.1 多维度过滤模板筛选测试集测试【顺序、随机】两种方式挑选
4.2 各阶段环境拨测【生产环境拨测、UAT环境拨测、SIT环境拨测】
4.3 历史测试任务测试集一键式重复执行
5. 测试评估
5.1 自动化准确率评估【裁判大模型技术判定+专家规则判定】
5.2 人工标注二次审核
5.3 准确率看板【单次任务、总体任务】
整体算法评测质量评估和每轮测试任务的执行自动评估。
6. 大模型性能测试
6.1 性能压测模型生成
6.1.1 性能基线测试
6.2 性能FUZZ测试
6.3 性能长稳测试执行【技术使用到了AI相似度算法、异常检测算法】
整体收益:
1. 接入产品3+个,累计接入环境6+套,测试集构建100万+,累计提交语料问题150+,算法问题350+,工程化问题500+;
2. 测试效率上从原来业务验收需要5天周期,缩短到3天周期,测试报告和测试评估直接测试系统取。
听众收益
1. 测试集如何构建和如何评估测试构建充分性;
2. 裁判大模型+专家规则+人工二次审核来保障测试评估的充分性;
3. 大模型性能测试集压测模型生成,性能基线测试指标、性能模高测试、性能长稳测试、性能风暴测试、性能FUZZ测试的方法和方案。