LLM赋能下测试实践与流程再造-2025-上海站_QECon全球软件质量效能大会-橙柚科技

优惠倒计时

8折票抢购中

团购享受更多优惠

北京站 · 10月31-11月1日

上海站 · 9月12-13日

深圳站 · 5月23-24日

专场：LLM赋能下测试实践与流程再造

本专场聚焦大语言模型（LLM）如何革新软件测试全流程，覆盖测试设计、执行到缺陷分析的关键环节。通过行业的优秀案例探讨LLM如何解决传统测试的效率瓶颈（如用例生成耗时、脚本维护难）并推动流程再造（如人机协同转型）。同时，分享落地路径：从“测试设计，脚本生成”等低风险高价值场景切入，逐步扩展至全流程智能化，赋能测试团队从执行向AI团队转型。

专场出品人：任红亮

中兴通讯 AI专职教练 AI研发提效项目规划组组长

测试领域10多年工作经验，担任测试总工等核心岗位。现在作为AI专职教练，AI研发提效项目规划组组长，测试领域公司AI研发提效负责人。负责AI在中兴研发领域的整体规划和落地，包括模型，工具，知识库，评测等，参与信通院智能化测试能力规范等规范编写。

黄立华

华为 GTS测试专家

GTS测试专家，目前主要负责GTSLLM辅助测试设计&AI大模型测试。

待定

基于数据飞轮多轮知识库AI辅助测试用例生成测试实践

1. 产品测试验证挑战：新老特性交互、验证点设计不全
2. 如何提取全面提取测试点避免遗漏？
3. 测试过程如何构建领域测试设计知识库，知识库如何用于LLM辅助测试设计

内容大纲
1. 测试设计工作模式改变
2. 整体解决方案
3. 关键技术1：DSL切片研发文档
4. 关键技术2：数据质量提升-测试需求分析
5. 关键技术3：多轮prompt输出测试设计方法测试用例
6. 关键技术4：数据飞轮知识库构建
7. 冠军技术5：数据飞轮知识库应用于LLM辅助测试用例

听众收益
1. 解决测试过程中测试领域知识库构建
2. 多轮prompt提升测试用例生成采纳率
3. 数据飞轮知识库如何应用于LLM负责测试用例生成

王旭峰

饿了么高级测试开发专家

饿了么测试开发专家，目前就职于饿了么技术中心质量效能团队，主要负责研发测试环节质量工具的建设以及效能优化工作，近两年主要专注于AI+领域,包括基于AI的前端自动化工具能力建设、基于AI的客诉故障预警能力建设,在利用大模型解决互联网相关领域的一些问题积累了一些经验。

待定

基于大模型的客诉故障探测方案实践与思考

在互联网平台中，客户投诉不仅是服务质量的“晴雨表”，更是系统故障的重要“哨兵”。传统上用以防范故障的常规监控手段,无论从投入产出比考量，还是业务场景的复杂度考量，很难做到百分之百的覆盖，其中的一部分问题通过客诉的形式最终被发现。

因此，一旦风险被触发后，如果在客诉中及时感知，就能尽快发现问题，解决问题，减小影响范围。
随着大模型技术的快速发展，我们尝试将AI能力引入到客诉数据处理中，探索一条从用户视角自动识别潜在系统问题的新路径。

内容大纲
1. 背景介绍
2. 项目成果：低危故障显著下降
3. 解决方案：利用大模型、视觉模型、Embedding、工具调用，结合工程能力，提升问题召回准确性、排查效率
3.1 总体流程
3.2 能力建设
3.3 工程实践
4. 方案落地：落地策略—>快速迭代优化->大规模推广
5. 问题、未来展望

听众收益
1. 获得通过客诉问题保障生产业务质量的新思路：构建用户反馈-技术干预的闭环机制，替代部分人工监控盲区
2. 了解如何利用大模型技术+工程能力,构建一套可用的、有稳定预期的客诉故障预警系统
3. 启发跨领域协作、共建、落地模式

李远康

科大讯飞测试部副总监

五级测试专家，拥有10年+软件测试领域深耕经验，历任测试负责人、测试总监、高级测试工程师，主导教育类、团队管理类等核心系统的质量保障及效能提升项目，为系统稳定迭代提供关键支撑。
深耕测试工具研发与自动化体系搭建，主导开发系统用例管理平台、系统监控平台，实现测试流程数字化与质量风险实时预警；精通端自动化框架实战应用，在元素定位策略、动态页面适配、用例自愈机制等领域有深入研究。
尤其擅长大模型测试工具落地中的 “可控性与稳定性平衡”，曾推动测试团队从 “脚本编写” 向 “用例设计” 转型，显著提升团队质量保障效率与核心竞争力。

待定

智解用例・自生脚本・自愈执行：效率与可控的测试新解

行业痛点：大模型自主测试落地难
破局思路：加执行步骤确认，锚定测试可控性
最终目标：推动自然语言测试实用化
达成 “人工一次确认，工具自动生成脚本，且具备执行自愈” 的高效模式，推动自然语言驱动的自动化测试从 “验证阶段”，迈向可落地的 “生产阶段”

内容大纲
1. 问题分析：大模型自主测试的落地困局与核心挑战
1.1 行业现状：从 “热捧” 到 “遇冷” 的现实落差
1.1.1 大模型在测试领域的应用热潮：自然语言生成脚本的技术愿景与行业期待
1.1.2 落地瓶颈：为何多数工具停留在 “演示阶段”，难以进入生产环境？
1.2 核心痛点拆解（结合真实场景案例）
1.2.1 语义理解偏差：业务术语误判导致测试逻辑失效（如 “最后一项”“提交后” 等隐含条件解析错误）
1.2.2 执行黑箱失控：全链路自动化缺乏干预节点，元素变化后脚本失效且排查困难
1.2.3 结果稳定性差：同一用例在不同页面状态下执行成功率波动（实测数据：某工具相同用例执行成功率

差异达 40%）
  1.2.4 大模型依赖陷阱：复杂交互场景（如拖拽、悬浮菜单）中 MCP 识别准确率骤降（低于 50%）
  1.2.5 回归测试成本高：页面微调引发批量脚本失效，人工修复占测试周期的 60% 以上
2. 技术抉择：从 “理想方案” 到 “落地可行” 的权衡
2.1 核心设计理念确立
  2.1.1 拒绝 “全自动化神话”：为何必须保留 “人工确认锚点”？（从 3 次失败尝试中得出的结论）
  2.1.2 “小步快跑” 优于 “一步到位”：动态循环执行的必要性论证
2.2 关键技术路径选择
  2.2.1 大模型依赖 vs 工具化封装：为何放弃 “纯大模型生成”，转向独立页面分析引擎？
对比数据：大模型生成脚本在动态页面中的稳定性（65%）vs 工具化定位策略（92%）
  2.2.2 定位策略优先级设计：如何平衡 “稳定性” 与 “兼容性”？
技术选型：data-testid→Role→Text→CSS→Xpath 的层级策略（基于 1000 + 页面元素的属性稳定性分析）
  2.2.3 自愈能力触发机制：为何仅针对 “步骤失败” 而非 “断言失败”？（功能缺陷与脚本问题的本质区别）
3. 实践踩坑：从 “理论可行” 到 “工程落地” 的避坑指南
3.1 技术实现中的典型问题
  3.1.1 页面分析引擎性能瓶颈：首次扫描耗时过长（初期版本单页面分析需 8 秒，优化后降至 1.2 秒）
  3.1.2 动态元素定位冲突：同一控件多属性匹配时的优先级失效（如 “确认” 按钮同时存在文本与data-id）
  3.1.3 自愈流程死循环：步骤失败后重新生成脚本仍失败，导致无限循环（解决方案：设置 3 次重试上限 +

人工介入阈值）
3.2 业务适配中的挑战
  3.2.1 复杂业务逻辑拆解困难：如 “多级审批流程” 等长链路用例的步骤拆分准确率低（初期不足 70%）
  3.2.2 行业特殊控件兼容：富文本编辑器、日期选择器等非标准控件的操作生成失败（通过定制化控件库解决）
4. 工程实践：构建 “稳定 + 高效” 的自动化测试体系
4.1 流程设计：分阶段闭环机制
  4.1.1 用例分析→步骤生成→人工确认→脚本生成→执行验证的全链路拆解
  4.1.2 人工确认节点的颗粒度控制：为何仅需 “步骤级确认”，而非 “脚本级干预”？（效率与可控性的平衡）
4.2 核心模块实现细节
  4.2.1 页面分析引擎：实时控件提取与结构化存储（基于 Playwright API 的二次开发）
  4.2.2 自愈能力模块：失败类型智能判断（断言失败 vs 步骤失败）与自动重试逻辑
  4.2.3 用例库沉淀机制：脚本 + 场景 + 环境的关联存储，支持相似场景复用（复用率提升至 65%）
4.3 与现有平台的无缝衔接
  4.3.1 用例生成及管理：测试平台提供功能用例生成及管理，使用大模型从需求到用例的生成
  4.3.2 执行结果与报告：测试平台提供任务编排及执行能力，并形成测试分析报告，实现从功能用例到脚本生成，

再到报告输出的全流程打通
5. 收益量化：从 “技术创新” 到 “业务价值” 的转化
5.1 效能提升数据（AI听说课堂项目）
  5.1.1 脚本设计效率：手动编写（30 分钟 / 用例）→自动生成（5 分钟 / 用例），耗时降低 83%
  5.1.2 回归测试成本：人工修复脚本占比从 60% 降至 15%，测试周期缩短 40%
  5.1.3 脚本稳定性：动态页面中执行成功率从 65%（传统工具）提升至 92%
5.2 质量保障升级
  5.2.1 测试覆盖率：因脚本生成效率提升，回归用例覆盖率从 50% 提升至 85%
  5.2.2 缺陷发现时效：线上问题反馈量减少 35%（早期拦截能力增强）
5.3 团队价值释放
测试人员精力分配变化：脚本编写（原 60%）→用例逻辑设计与异常分析（现 70%）
6. 总结与展望
6.1 核心经验：
  6.1.1 可控性优先于 “全自动”：在效率与稳定性的博弈中，必须保留 “人工确认关键节点”，用最小化干预换取

最大化可控（如步骤拆解环节的人工校验，使后续脚本生成准确率提升至 95%）
6.1.2 工具化能力高于 “大模型依赖”：将核心逻辑（如元素定位、失败重试）沉淀为可复用的工具模块，而非依赖

大模型的 “黑箱输出”，是应对复杂业务场景的关键（工具化封装后，复杂控件支持率从 58% 提升至 91%）
6.1.3 自愈设计要区分 “脚本问题” 与 “功能缺陷”：仅对 “步骤执行失败” 触发自愈，避免将功能 bug 误判为脚本

问题，确保测试结果的准确性（该机制使缺陷误判率控制在 3% 以内）
6.2 未来迭代方向：
6.2.1 大模型辅助优化：如何让 AI 在 “人工确认” 环节提供更精准的步骤建议？
6.2.2 跨端适配：扩展至 APP、小程序等场景的技术路径

6.3 行业启示：测试工具的 “务实主义”—— 从 “炫技” 到 “解决问题” 的回归