LLM赋能测试左移与右移实践-2026深圳站_QECon全球软件质量效能大会-橙柚科技

优惠倒计时

早鸟票抢购中

团购享更多优惠

北京站 · 10月16-17日

上海站 · 9月4-5日

深圳站 · 5月22-23日

专场：LLM赋能测试左移与右移实践

随着LLM技术的突破性发展，各行业质量保障体系正加速向智能化演进。LLM赋能测试已从辅助工具升级为贯穿研发全生命周期的智能引擎，催生软件质量工程领域的新范式。本次「LLM赋能测试左移与右移实践」分论坛，将聚焦互联网及科技企业前沿实践，深度探讨LLM在左移阶段的需求缺陷智能预测、代码审查优化与AI代码质量分析，在右移阶段的生产环境风险感知、故障根因分析等话题，以及各公司LLM赋能测试左右移的落地方案。

专场出品人：郭晓辉

中国平安人寿质量管理团队副总经理

中国平安寿险总部科技研发部质量管理团队副总经理，寿险科技中心测试菁英荟主席，负责寿险科技中心测试团队管理工作。曾供职于腾讯、百度(国际化)、腾讯微保，深耕质量管理和项目管理领域18年，在质量保障、系统测试、自动化平台建设、持续集成、敏捷研发管理等方面积累了丰富经验。2022年加入平安人寿，整合寿险个险测试团队，重塑保险质量保障体系，在生产问题管理、质效度量和应用、自动化测试、AI重塑测试流程和人才培养方面有着独到的经验和探索。

贾澄臻

记忆张量 MemOS 团队测试负责人

全面负责 MemOS 产品质量体系的规划、建设与落地。将意图驱动测试（Intent-Driven Testing）方法论引入团队并结合业务深度实践，面向 AI 记忆系统"意图理解—记忆存储—检索召回—个性化响应"的核心链路，建立了一套适配 AI 原生产品特性的质量评估体系。在此基础上，主导搭建了基于业务域分层的意图驱动自动化测试框架，并积极探索人机协同的质量工程新范式——将 AI 深度融入业务交付全周期，持续推动框架的开源化演进，致力于填补 AI 意图驱动，记忆系统测试领域的工具与方法空白。此前拥有 7 年+互联网大厂质量工程经验，曾在美团负责商家履约业务质量保障，在百度担任用户增长效能负责人，主导无人值守交付体系建设及春晚红包等大型运营活动质量保障，沉淀输出《用增运营活动质量白皮书》。精通 Python、Go、Java 和 Shell，兼具测试架构设计、技术方案落地与团队管理的综合能力。

待定

意图驱动 + 契约左移 + AI 定位修复：

一个 QA 在全员 AI 团队里跑通交付闭环的实战

议题背景：
我们团队全员 Vibe Coding——需求 AI 写、方案 AI 审、代码 AI 写。听着效率拉满，但出了 Bug 才发现老流程兜不住：AI 写的代码更分散、Bug 更隐蔽，传统"测完提单等排期"的节奏根本跟不上。
怎么办？我们的做法是把交付闭环压到一个人身上。先是用我们自研的基于记忆能力的意图驱动框架，用例不写裸 HTTP，而是 Intent → Spec → Step → 语料四层分工，接口文档直接当契约，成功响应自动做 key 级结构对比，漂移当场现形。基础契约用例跑完之后，集成回归这步也交给 AI——AI 根据代码 Diff 和已有的业务经验库，生成回归建议和场景用例草稿，人来 check 哪些要跑、哪些要补、哪些可以跳过，不再靠拍脑袋决定回归范围。第二个是拿 AI 打 AI：测出 Bug，把报错和代码 Diff 喂给 AI 做定位，实测一段业务逻辑bug，样式等问题，AI 10 秒就能锁定到具体行号。第三个是 QA 直接拉代码改：借助AI改完bug后，本地 build + 重启 + 跑用例验证，全程 5 分钟，一个人干了测试、定位、修复、验证四个角色的活。踩过的坑和契约约束沉淀成特性矩阵，搜索隔离这种 P1 盲区就是矩阵审计时探索出来的，随着业务迭代场景用例不断完善，保持新鲜。

内容大纲：
1. 全员 AI 团队的质量困境
1.1 AI 写代码大家都会了，但写完谁兜底——传统流程太慢，等排期等到下个版本都出了
1.2 我们踩过的坑：契约悄悄变、数据写进代码、前置里藏业务动作
2. 意图驱动框架：验什么和怎么调分开
2.1 意图—契约—步骤—数据，各管一摊
2.2 从「想测什么」到可跑用例，最短路径怎么走
2.3 一条原则：上下文可以隐掉，动作必须能看见
3. 契约左移：文档不是摆设
3.1 文档末尾 JSON 块就是契约，成功响应后自动对结构，漂移当场打告警
3.2 没契约别合并——有人写完用例忘了 Spec 文件，漂移检测直接失效
3.3 契约层和场景层怎么分：单接口形态归 contracts，用户旅程归 scenarios
4. AI 生成集成回归，人做 check
4.1 契约跑完后，AI 根据 Diff + 业务经验库生成回归建议和场景用例草稿
4.2 人怎么 check：3 分钟挑出真正要盯的，决定权在人
4.3 踩坑：AI 给的建议面面俱到但重点不突出，没经验的人会全跑一遍白费时间
5. 魔法打魔法：AI 定位 + QA 直接修
5.1 报错 + 代码喂 AI，10 秒定位到行号——靠谱和不靠谱的场景各是什么
5.2 QA 改代码的边界：样式，业务逻辑错误直接改，底层先对齐再修改
5.3 改完跑用例验证，5 分钟闭环——一个人串起四个角色的活
6. 覆盖不靠感觉，靠矩阵
6.1 特性矩阵：一眼看出哪里没盖住，搜索隔离就是审计时逮出来的
6.2 手工验收和自动化各管哪一段，不重叠
7. 经验别只活在聊天窗口里
7.1 踩过的坑沉淀进记忆系统，下次不用从头问
7.2 飞轮怎么量：对话轮数、生成符合率、重复踩坑次数
8. 收尾
8.1 几个具体坑：前置滥用、语料里写调用、契约没进流水线、AI 建议不删减
8.2 框架核心层业务无关，怎么和现有 CI 共存

听众收益：
1.一套交付闭环的完整拆解：从 Diff 分析到意图测试、到 AI 出回归建议人做 check、到 AI 定位 Bug 到 QA 直接改代码验证——每一步怎么做、边界在哪、踩过什么坑，会讲得很具体，我们团队现在就是这么在实践的，不是方法论是每天在跑的流程。
2.契约左移 + AI 辅助回归的可操作做法：文档变契约 + 自动对结构 + 合并门禁，找一个接口就能在自己团队试。集成回归怎么让 AI 出草稿、人怎么 3 分钟挑重点删废话，带团队的人可以直接参考。
3.AI 辅助的真实边界：AI不是万能，会讲清楚 AI 生成用例、定位 Bug、给修复方案各自靠谱和不靠谱的场景，以及用什么机制（门禁、矩阵、人工 review）兜住 AI 不靠谱的部分。

张鼎

前阿里巴巴 Lazada 执行副总裁

曾任阿里巴巴Lazada执行副总裁，P9测试开发专家（鼎叔），历任阿里巴巴，富途证券，腾讯，OPPO等多家公司的技术总监和质量技术委员会会长或资深委员。
热衷技术及敏捷管理分享，机械工业出版社出版三十万字专著《无测试组织-测试团队的敏捷转型》，获得年度新锐作家称号。腾讯年度优秀高级讲师，原创课程众多。原创文章发表近两百篇。
在多个业界技术峰会担任联席主席或出品人
武汉大学外聘研究生导师

待定

AI Coding 与 AI Testing

议题背景：
本分享从方法论而不是具体实践案例来系统阐述近期的思考。事实证明，传统敏捷方法论在AI变革时代是被强化了，而不是被推翻了。
测试团队在AI大潮中有多种多样的创新实践，但是出圈的成果还是很少，我们先从背后的原因聊起。
AI Coding已经成为开发者的必修之路，将带来研发工作流和岗位能力的变化，测试团队如何依托团队合作实现预防风险的价值，如何找到产研过程中更适合自己的专业场景。
最后我们展望下AI飞速发展的未来，我们怎么扩宽知识视野，识别变与不变，修炼能不断增值的敏捷能力

内容大纲：
1. AI Coding大潮中测试工程师的进退两难
1.1 AI Testing实践思路
1.2 进展艰难的原因
2. AI Coding的本质
2.1 追求文档即代码
2.2 开发角色的转型
2.3 研发工作流的提效点
3. AI Testing依托于coding
3.1 高质量的研发知识库
3.2 测试精力左移到需求定义和开发活动
3.3 测试和开发在AI平台结对工作
3.4 测试精力右移到风险预防和线上分析
3.5 测试人员把控软件可控性和可测性
4. 对未来职业发展的感悟
4.1 AI与脑科学
4.2 AI进化打破了什么，打不破什么
4.3 AI在产研组织中是谁的机会
4.4 去中心化技术的春天?

听众收益：
1. 分享AI新时代下工程师如何自我修炼。
2. 理解AI coding背景下测试人员面临比开发更大的挑战
3. 如何从敏捷研发生命周期中找到新工作流的提效亮点，并提升AI生成软件的可控性。

肖林青

百度地图测试开发工程师

百度地图地图质量组测试开发工程师，目前主要负责公共出行、开放平台、产品运营业务的测试工作。保障地图业务的高可用性、稳定性，持续进行质量保障能力的建设；积极践行AI原生研发范式，负责地图AI风险洞察系统的建设，解决高频迭代下项目风险预判不足导致的质量风险问题，实现了从传统人工评估向智能化质控的智能升级。

待定

AI原生研发范式在地图AI-QA值守系统中的实践与创新

议题背景：
随着业务需求的持续增长和新功能的快速交付压力，精准识别代码改动中的潜在质量风险并自动化执行测试用例，成为亟待解决的关键问题。为此，我们构建一套依托大模型能力的AI-QA值守系统，涵盖风险精准识别、测试用例规划与测试结果归因，以及精准质量研判。确保程序变更经过严格检测。系统已在14个业务、71个模块中落地应用，通过大模型与专家规则的结合，显著提高风险识别准确率（高达90%），并减少了20%的人工判断时间，为项目质量保驾护航。

内容大纲：
1. 问题背景与挑战：
1.1 在地图业务高速迭代的进程中，变更上线环节常因风险洞察不充分而面临质效管理的严峻挑战。
1.2 业务需求的快速增长，使得精准识别代码改动中的潜在质量风险成为关键。
1.3 目标是构建一套依托大模型能力的全流程机制，包括风险精准识别、测试用例规划及测试结果归因，以及精准质量

研判，确保程序变更经过严格检测，安全上线。
2. 技术方案：
2.1 整套系统概述：
依托“AI风险洞察、D级项目测试智能化、AI智能研判”，构建测前预警、测中智判、测后决策的全链路质量保障体系。

结合多模型打分和专家经验规则，通过语义推理和业务知识词条补充，实现从风险洞察到质量研判的全流程打通。
通过人工分析标注，持续优化整体流程，提高模型洞察准确率，建立程序变更的前置化、高效化、完善的质量保障

体系。
2.2 AI风险漏斗架构概述：
质量维度风险识别：基于代码变更内容、业务知识图谱以及测试专家经验，全面分析程序变更的潜在质量风险，从多

维度构建初步的风险评估基础。
智能项目定级：结合研发画像、模块成熟度与预设定级标准，通过多模型投票机制与Goodcase约束方法，精准计算项

目风险等级，为后续治理提供科学依据。
风险治理闭环与持续优化：构建“反馈-迭代”闭环，通过风险洞察工作卡推送风险治理任务，形成"人工反馈-Prompt优

化-效果提升"的持续学习路径。通过不断内化专家经验规则，系统逐步提升风险洞察的准确性与可解释性，实现自适

应优化。

2.3 项目落地效果:
风险洞察已接入87个业务模块，包括phpui、导航、定位、交通、公共出行、开平等业务线，共实现洞察超3000次，研

发反馈超过50次，洞察准确率平均达到65%-75%。

听众收益:
学习AI风险漏斗架构的创新设计与应用；掌握多模型投票机制与Goodcase约束方法；了解“反馈-迭代”闭环及专家经验内化路径，增强系统准确性与可解释性。

郑友韩

腾讯音乐测试经理

本人长期从事研发效能体系建设与AI工程化落地工作，拥有10年以上业务线研效平台建设经验。现是TME/酷狗研效中心/商业化&AI音乐业务质量负责人，主导了前端智能测试质量体系建设、AI自动化测试平台搭建、AI 测试技术落地与效能提升等多个专项从0到1的建设，并推动在TME集团内跨业务线落地。对前后端AI自动化、AI智能化测试、研发效能提升等有丰富的实战经验。

待定

多智能体协同智测：AI 重塑前端全链路质量防线

议题背景：
随着 AI 技术在研发领域快速渗透，AI 编码、AI 辅助开发大幅提升了研发效率，但测试环节逐渐成为研发流程的效率瓶颈。同时，AI 生成代码的质量参差不齐，潜在布局、文案、交互等问题增多，传统人工测试与自动化脚本已难以应对高频迭代与复杂场景。如何为每位测试人员提供专属前端智能测试助手，并在提测前、测试环境、预发布环境、线上环境实现全链路巡检、冒烟、回归能力，已成为行业内亟待解决的共性质量问题。

内容大纲：
1. 现阶段前端测试面临的核心难点
1.1 AI 赋能开发提速，测试环节跟不上迭代节奏，成为效能瓶颈
1.2 AI 生成代码质量不可控，布局错乱、文案错误、控件重叠等问题频发
1.3 传统自动化依赖脚本编写，维护成本高、场景覆盖有限
1.4 全研发周期多环境（提测前 / 测试 / 预发 / 线上）缺乏统一智能检测能力
1.5 业务复杂多变，测试人员重复劳动多，精力被大量基础校验占用
2. 业界前端智能测试方案调研与对比
2.1 前端测试自动化整体经历了三代技术演进：
2.2 第一代：传统自动化工具方案
2.3 代表工具：Airtest、Appium、Selenium 等
2.3.1 核心思路：基于元素定位 + 手工编写自动化脚本
2.3.2 优点：成熟稳定，可控性强
2.3.3 弊端：人工投入大、脚本编写与维护成本极高，复杂场景复用性差，难以适配高频迭代
2.4 第二代：AI 辅助生成自动化脚本
2.5 代表方案：WorkBuddy 类自动编写脚本方案
2.5.1 技术栈：Python + uiautomator2 + ADB
2.5.2 思路：AI 自动生成脚本，替代部分手工编码
2.5.3 优点：省去手动写脚本时间，上手简单，可快速执行基础操作
2.5.4 不足：本质仍依赖传统控件定位逻辑，视觉理解与上下文感知弱，执行准确率有待提升
2.6 第三代：AI 视觉大模型 + 多 Agent 智能执行（本次落地核心）
2.7 代表方案：OpenClaw + AutoGLM
2.7.1 亮点：AutoGLM 开源模型，使用成本低，视觉分析准确率高
2.7.2 优势：OpenClaw 具备上下文关联、记忆、自学习、多 Agent 协同调度能力
2.7.3 价值：真正实现 “页面理解 + 智能决策 + 自主执行”，让前端规模化智能测试成为可能
3. AI 前端智能测试方案落地实践
3.1 底座框架：OpenClaw + AutoGLM
3.1.1 低成本：基于开源 AutoGLM 模型，无高额模型调用成本
3.1.2 高准确率：视觉分析能力强，能精准识别布局、重叠、缺失等问题
3.1.3 智能能力：支持上下文理解、执行记忆、自学习优化，持续提升执行效果

3.2 用例模板化与原子化拆解
3.2.1 将业务测试用例模板化，适配 AI 理解逻辑
3.2.2 对操作、断言、校验流程进行原子化拆分
3.3.3 降低 AI 执行歧义，大幅提升用例执行准确率与稳定性
3.3 业务知识库与 Skill 体系构建
3.3.1 沉淀各业务线专属业务知识库
3.3.2 封装成可插拔、可复用的 Skill 技能
3.3.3 插入即用，快速提升 AI 对复杂业务的理解能力
3.4 垂类专项检查点增强
3.4.1 内置错别字、图片合规、文字截断、布局异常、控件重叠等专项检查
3.4.2 扩展 UI 合规、交互一致性、视觉规范等垂类能力
3.4.3 实现传统自动化难以覆盖的 “软性质量问题” 自动发现
3.5 全研发周期多时机自动触发
3.5.1 提测前：自动冒烟，提前拦截基础问题
3.5.2 测试环境：全自动回归，减少重复手工测试
3.5.3 预发布环境：冒烟 + 回归，降低发布风险
3.5.4 线上环境：定时巡检 + 日常回归，保障线上质量稳定
3.5.5 全程辅助测试人员，实现质量左移与全域防护
3.6 数据视图看板观测与纠错迭代
3.6.1 建立多维度指标体系，量化评估智能测试效果：
- 北极星指标：覆盖范围（产品 / 功能覆盖度、需求覆盖率）、缺陷发现数、提效人日
- 技术基建指标：巡检步骤有效性、巡检结果正确率、误报率
3.6.2 通过每日数据回溯，复盘执行效果
3.6.3 持续优化执行策略，提升稳定性与准确率
3.6.4 沉淀有效实践，明确平台迭代方向
4. 项目落地实际收益
4.1 问题发现：累计发现各类问题 xx个，包含错别字、图片异常、布局错乱、控件重叠、交互异常等
4.2 效能提升：整体节省测试人力成本 xx 人天，显著降低重复劳动
4.3 质量保障：实现多环境常态化智能巡检，问题暴露更早、修复成本更低
4.4 模式可复制：形成一套可快速推广、低成本接入的 AI 前端智能测试体系
5. 未来展望
5.1 构建全域业务知识库链路网
5.1.1 持续扩充代码库、需求文档、个人经验库、业务背景库、历史 Bug 库、历史用例库
5.1.2 形成多维度知识喂养体系，让多 Agent 具备更强的自学习与推理能力
5.1.3 实现从 “按指令执行” 向 “懂业务、会思考” 升级
5.2 建设 AI 自动归因与自运作闭环
5.2.1 AI 自动判断执行结果准确性，对执行失败进行初筛与自动纠错，降低误报
5.2.2 对疑似问题自动关联需求、代码、历史缺陷，给出问题置信度分析报告
5.2.3 逐步实现全流程自判断、自归因、自优化，让智能测试体系自主运作、持续提升

听众收益：
1. 可直接了解一套可落地、低成本的 AI 前端智能测试完整方案
2. 学习 AI 测试技术在企业内部真实落地流程与实践经验
3. 掌握前端智能测试落地过程中的常见难点及对应解决思路
4. 获取可复用的框架选型、用例设计、知识库建设、多环境接入等实施方法
5. 为团队质量提效、智能化转型提供可参考的实践路径

敬请期待

......

.....

待定

敬请期待

....