专场:LLM赋能测试左移与右移实践
随着LLM技术的突破性发展,各行业质量保障体系正加速向智能化演进。LLM赋能测试已从辅助工具升级为贯穿研发全生命周期的智能引擎,催生软件质量工程领域的新范式。本次「LLM赋能测试左移与右移实践」分论坛,将聚焦互联网及科技企业前沿实践,深度探讨LLM在左移阶段的需求缺陷智能预测、代码审查优化与AI代码质量分析,在右移阶段的生产环境风险感知、故障根因分析等话题,以及各公司LLM赋能测试左右移的落地方案。
专场出品人:郭晓辉
中国平安人寿 质量管理团队副总经理
中国平安寿险总部科技研发部质量管理团队副总经理,寿险科技中心测试菁英荟主席,负责寿险科技中心测试团队管理工作。曾供职于腾讯、百度(国际化)、腾讯微保,深耕质量管理和项目管理领域18年,在质量保障、系统测试、自动化平台建设、持续集成、敏捷研发管理等方面积累了丰富经验。2022年加入平安人寿,整合寿险个险测试团队,重塑保险质量保障体系,在生产问题管理、质效度量和应用、自动化测试、AI重塑测试流程和人才培养方面有着独到的经验和探索。
贾澄臻
记忆张量 MemTensor 测试负责人
全面负责 MemOS 产品质量体系的规划、建设与落地。将意图驱动测试(Intent-Driven Testing)方法论引入团队并结合业务深度实践,面向 AI 记忆系统"意图理解—记忆存储—检索召回—个性化响应"的核心链路,建立了一套适配 AI 原生产品特性的质量评估体系。在此基础上,主导搭建了基于业务域分层的意图驱动自动化测试框架,并积极探索人机协同的质量工程新范式——将 AI 深度融入业务交付全周期,持续推动框架的开源化演进,致力于填补 AI 意图驱动,记忆系统测试领域的工具与方法空白。此前拥有 7 年+互联网大厂质量工程经验,曾在美团负责商家履约业务质量保障,在百度担任用户增长效能负责人,主导无人值守交付体系建设及春晚红包等大型运营活动质量保障,沉淀输出《用增运营活动质量白皮书》。精通 Python、Go、Java 和 Shell,兼具测试架构设计、技术方案落地与团队管理的综合能力。
待定
待定
意图驱动 + 契约左移 + AI 定位修复:
一个 QA 在全员 AI 团队里跑通交付闭环的实战
议题背景:
我们团队全员 Vibe Coding——需求 AI 写、方案 AI 审、代码 AI 写。听着效率拉满,但出了 Bug 才发现老流程兜不住:AI 写的代码更分散、Bug 更隐蔽,传统"测完提单等排期"的节奏根本跟不上。
怎么办?我们的做法是把交付闭环压到一个人身上。先是用我们自研的基于记忆能力的意图驱动框架,用例不写裸 HTTP,而是 Intent → Spec → Step → 语料四层分工,接口文档直接当契约,成功响应自动做 key 级结构对比,漂移当场现形。基础契约用例跑完之后,集成回归这步也交给 AI——AI 根据代码 Diff 和已有的业务经验库,生成回归建议和场景用例草稿,人来 check 哪些要跑、哪些要补、哪些可以跳过,不再靠拍脑袋决定回归范围。第二个是拿 AI 打 AI:测出 Bug,把报错和代码 Diff 喂给 AI 做定位,实测一段业务逻辑bug,样式等问题,AI 10 秒就能锁定到具体行号。第三个是 QA 直接拉代码改:借助AI改完bug后,本地 build + 重启 + 跑用例验证,全程 5 分钟,一个人干了测试、定位、修复、验证四个角色的活。踩过的坑和契约约束沉淀成特性矩阵,搜索隔离这种 P1 盲区就是矩阵审计时探索出来的,随着业务迭代场景用例不断完善,保持新鲜。

内容大纲:
1. 全员 AI Coding团队的质量困境
    1.1 全员 AI 写代码,95% commit 来自 AI,质量谁兜底
    1.2 三个困境:AI的代码怎么测?、BUG怎么修?、经验怎么留?
2. Harness Engineering:给 AI 装约束
    2.1 仓库即规范:Rules + Skills + 门禁脚本,全在 Git 里
    2.2 三层注入:L1 注入启动自读 → L2 知识按需查阅 → L3 Hook 硬拦截
    2.3 QA 时间重塑 + 质量六层防线
3. OpenSpec:先想后做
    3.1 三种链路分流:Heavy / Medium / Bug Fix
    3.2 四件套驱动:proposal → design → spec → tasks,写代码前强制想清楚
    3.3 三个 AI 审查角色 + 一个 Heavy 需求的 Pilot 复盘
4. 意图驱动测试框架
    4.1 四层架构:Intent → Step → Spec → Asset,各管一摊
    4.2 三个支柱:数据解耦 · 意图驱动 · 契约左移
5. 契约左移
    5.1 API 文档给人读 vs 给机器自动校验——检查从上线后移到每次测试
    5.2 API 变了第一时间知道
6. AI 定位修复 + 质效度量
    6.1 Bug → Agent 5 分钟修好,规则守护每一步不越界
    6.2 QA 改代码的边界
    6.3 AI 做执行、QA 做决策——4 个不可替代的判断
7. 踩坑 → 经验飞轮 + MemOS
    7.1 5 个真实踩坑 + 对应解法
    7.2 踩坑 → 蒸馏成 Rule → 自动注入 AI → 下次不再踩
    7.3 MemOS 通过 MCP 协议让 AI 记住团队经验

听众收益:
1.一套交付闭环的完整拆解:从 Diff 分析到意图测试、到 AI 出回归建议人做 check、到 AI 定位 Bug 到 QA 直接改代码验证——每一步怎么做、边界在哪、踩过什么坑,会讲得很具体,我们团队现在就是这么在实践的,不是方法论是每天在跑的流程。
2.契约左移 + AI 辅助回归的可操作做法:文档变契约 + 自动对结构 + 合并门禁,找一个接口就能在自己团队试。集成回归怎么让 AI 出草稿、人怎么 3 分钟挑重点删废话,带团队的人可以直接参考。
3.AI 辅助的真实边界:AI不是万能,会讲清楚 AI 生成用例、定位 Bug、给修复方案各自靠谱和不靠谱的场景,以及用什么机制(门禁、矩阵、人工 review)兜住 AI 不靠谱的部分。
郑友韩
腾讯音乐  资深测试专家
本人长期从事研发效能体系建设与AI工程化落地工作,拥有10年以上业务线研效平台建设经验。现是TME/酷狗研效中心/商业化&AI音乐业务质量负责人,主导了前端智能测试质量体系建设、AI自动化测试平台搭建、AI 测试技术落地与效能提升等多个专项从0到1的建设,并推动在TME集团内跨业务线落地。对前后端AI自动化、AI智能化测试、研发效能提升等有丰富的实战经验。
待定
待定
多智能体协同智测:AI 重塑前端全链路质量防线
议题背景:
随着 AI 技术在研发领域快速渗透,AI 编码、AI 辅助开发大幅提升了研发效率,但测试环节逐渐成为研发流程的效率瓶颈。同时,AI 生成代码的质量参差不齐,潜在布局、文案、交互等问题增多,传统人工测试与自动化脚本已难以应对高频迭代与复杂场景。如何为每位测试人员提供专属前端智能测试助手,加强UAT AI测试能力,提升测试效率,已成为行业内亟待解决的共性质量问题。

内容大纲:
1. 现阶段前端测试面临的核心难点
    1.1 AI 赋能开发提速,测试环节跟不上迭代节奏,成为效能瓶颈
    1.2 AI 生成代码质量不可控,布局错乱、文案错误、控件重叠等问题频发
    1.3 传统自动化依赖脚本编写,维护成本高、场景覆盖有限
    1.4 全研发周期多环境(提测前 / 测试 / 预发 / 线上)缺乏统一智能检测能力
    1.5 业务复杂多变,测试人员重复劳动多,精力被大量基础校验占用
2. 业界前端智能测试方案调研与对比
    2.1 前端测试自动化整体经历了三代技术演进:
          2.1.1 第一代:传统自动化工具方案
                   代表工具:Airtest、Appium、Selenium 等
                   - 核心思路:基于元素定位 + 手工编写自动化脚本
                   - 优点:成熟稳定,可控性强
                   - 弊端:人工投入大、脚本编写与维护成本极高,复杂场景复用性差,难以适配高频迭代
           2.1.2 第二代:AI 辅助生成自动化脚本
                   代表方案:WorkBuddy 类自动编写脚本方案
                   - 技术栈:Python + uiautomator2 + ADB
                   - 思路:AI 自动生成脚本,替代部分手工编码
                   - 优点:省去手动写脚本时间,上手简单,可快速执行基础操作
                   - 不足:本质仍依赖传统控件定位逻辑,视觉理解与上下文感知弱,执行准确率有待提升
          2.1.3 第三代:AI 视觉大模型 + 多 Agent 智能执行(本次落地核心)
                   代表方案:OpenClaw/Workbuddy + AutoGLM + DeepSeek/Kimi
                   - 亮点:AutoGLM 开源模型,使用成本低,视觉分析准确率高
                   - 优势:OpenClaw 具备上下文关联、记忆、自学习、多 Agent 协同调度能力;DeepSeek/Kimi增强结果校验能力
                   - 价值:真正实现 “页面理解 + 智能决策 + 自主执行”,让前端规模化智能测试成为可能
3. AI 前端智能测试方案落地实践
    3.1 底座框架:OpenClaw/Workbuddy + AutoGLM + DeepSeek/Kimi
           3.1.1 低成本:基于开源 AutoGLM 模型,无高额模型调用成本
           3.1.2 高准确率:视觉分析能力强,能精准识别布局、重叠、缺失等问题
           3.1.3 智能能力:支持上下文理解、执行记忆、自学习优化,持续提升执行效果
    3.2 用例模板化与原子化拆解
           3.2.1 将业务测试用例模板化,适配 AI 理解逻辑
           3.2.2 对操作、断言、校验流程进行原子化拆分
           3.2.3 降低 AI 执行歧义,大幅提升用例执行准确率与稳定性    
    3.3 业务知识库与 Skill 体系构建
           3.3.1 沉淀各业务线专属业务知识库
           3.3.2 封装成可插拔、可复用的 Skill 技能
           3.3.3 插入即用,快速提升 AI 对复杂业务的理解能力
    3.4 垂类专项检查点增强
          3.4.1 内置错别字、图片合规、文字截断、布局异常、控件重叠等专项检查
          3.4.2 扩展 UI 合规、交互一致性、视觉规范等垂类能力
          3.4.3 实现传统自动化难以覆盖的 “软性质量问题” 自动发现
    3.5 数据视图看板观测与纠错迭代
          3.5.1 建立多维度指标体系,量化评估智能测试效果:
                   - 北极星指标:覆盖范围(产品 / 功能覆盖度、需求覆盖率)、缺陷发现数、提效人日
                   - 技术基建指标:巡检步骤有效性、巡检结果正确率、误报率
           3.5.2 通过每日数据回溯,复盘执行效果
           3.5.3 持续优化执行策略,提升稳定性与准确率
           3.5.4 沉淀有效实践,明确平台迭代方向
4. 业务运用
    4.1 需求AI测试:结合Harness体系,介绍业务落地实践,如何让AI测试从“能跑”变成“可信赖、可复用、可积累”
    4.2 专项用例转化:将固定的专项用例转化为AI执行,剖析优化过程,节省测试重复工作投入。
5. 项目落地实际收益
    5.1 问题发现:累计发现各类问题 200+个,包含错别字、图片异常、布局错乱、控件重叠、交互异常等
    5.2 效能提升:整体节省测试人力成本50+人天/半年,显著降低重复劳动
    5.3 质量保障:实现多环境常态化智能巡检,问题暴露更早、修复成本更低
6. 未来展望
    6.1 构建全域业务知识库链路网
          6.1.1 持续扩充代码库、需求文档、个人经验库、业务背景库、历史 Bug 库、历史用例库
          6.1.2 形成多维度知识喂养体系,让多 Agent 具备更强的自学习与推理能力
          6.1.3 实现从 “按指令执行” 向 “懂业务、会思考” 升级
    6.2 建设 AI 自动归因与自运作闭环
          6.2.1 AI 自动判断执行结果准确性,对执行失败进行初筛与自动纠错,降低误报
          6.2.2 对疑似问题自动关联需求、代码、历史缺陷,给出问题置信度分析报告
          6.2.3 逐步实现全流程自判断、自归因、自优化,让智能测试体系自主运作、持续提升

听众收益:
1. 可直接了解一套可落地、低成本的 AI 前端智能测试完整方案
2. 学习 AI 测试技术在企业内部真实落地流程与实践经验
3. 掌握前端智能测试落地过程中的常见难点及对应解决思路
4. 获取可复用的框架选型、用例设计、知识库建设、多环境接入等实施方法
5. 为团队质量提效、智能化转型提供可参考的实践路径
肖林青
百度地图 测试开发工程师
百度地图 地图质量组 测试开发工程师,目前主要负责公共出行、开放平台、产品运营业务的测试工作。保障地图业务的高可用性、稳定性,持续进行质量保障能力的建设;积极践行AI原生研发范式,负责地图AI风险洞察系统的建设,解决高频迭代下项目风险预判不足导致的质量风险问题,实现了从传统人工评估向智能化质控的智能升级。
待定
待定
AI原生研发范式在地图AI-QA值守系统中的实践与创新
议题背景:
随着业务需求的持续增长和新功能的快速交付压力,精准识别代码改动中的潜在质量风险并自动化执行测试用例,成为亟待解决的关键问题。为此,我们构建一套依托大模型能力的AI-QA值守系统,涵盖风险精准识别、测试用例规划与测试结果归因,以及精准质量研判。确保程序变更经过严格检测。系统已在14个业务、71个模块中落地应用,通过大模型与专家规则的结合,显著提高风险识别准确率(高达90%),并减少了20%的人工判断时间,为项目质量保驾护航。

内容大纲:
1. 问题背景与挑战:
     1.1 在地图业务高速迭代的进程中,变更上线环节常因风险洞察不充分而面临质效管理的严峻挑战。
     1.2 业务需求的快速增长,使得精准识别代码改动中的潜在质量风险成为关键。
     1.3 目标是构建一套依托大模型能力的全流程机制,包括风险精准识别、测试用例规划及测试结果归因,以及精准质量
           研判,确保程序变更经过严格检测,安全上线。
2. 技术方案:
    2.1 整套系统概述:
         依托“AI风险洞察、D级项目测试智能化、AI智能研判”,构建测前预警、测中智判、测后决策的全链路质量保障体系。
         结合多模型打分和专家经验规则,通过语义推理和业务知识词条补充,实现从风险洞察到质量研判的全流程打通。
         通过人工分析标注,持续优化整体流程,提高模型洞察准确率,建立程序变更的前置化、高效化、完善的质量保障
        体系。
    2.2 AI风险漏斗架构概述:
         质量维度风险识别:基于代码变更内容、业务知识图谱以及测试专家经验,全面分析程序变更的潜在质量风险,从多
         维度构建初步的风险评估基础。
         智能项目定级:结合研发画像、模块成熟度与预设定级标准,通过多模型投票机制与Goodcase约束方法,精准计算项
         目风险等级,为后续治理提供科学依据。
         风险治理闭环与持续优化:构建“反馈-迭代”闭环,通过风险洞察工作卡推送风险治理任务,形成"人工反馈-Prompt优
         化-效果提升"的持续学习路径。通过不断内化专家经验规则,系统逐步提升风险洞察的准确性与可解释性,实现自适
          应优化。
    2.3 项目落地效果:
         风险洞察已接入87个业务模块,包括phpui、导航、定位、交通、公共出行、开平等业务线,共实现洞察超3000次,研
         发反馈超过50次,洞察准确率平均达到65%-75%。

听众收益:
学习AI风险漏斗架构的创新设计与应用;掌握多模型投票机制与Goodcase约束方法;了解“反馈-迭代”闭环及专家经验内化路径,增强系统准确性与可解释性。
张鼎
前阿里巴巴 Lazada 执行副总裁
曾任阿里巴巴Lazada执行副总裁,P9测试开发专家(鼎叔),历任阿里巴巴,富途证券,腾讯,OPPO等多家公司的技术总监和质量技术委员会会长或资深委员。
热衷技术及敏捷管理分享,机械工业出版社出版三十万字专著《无测试组织-测试团队的敏捷转型》,获得年度新锐作家称号。腾讯年度优秀高级讲师,原创课程众多。原创文章发表近两百篇。
在多个业界技术峰会担任联席主席或出品人
武汉大学外聘研究生导师
待定
待定
AI Coding与AI Testing-重塑软件交付的组织管理
议题背景:
本分享基于工程实践方法论来系统阐述这几年的效能思考。
测试团队在AI大潮中有多种多样的创新实践,但是出圈的成果还是很少,我们先从背后的原因聊起。
AI Coding已经成为开发者的必修之路,将带来研发工作流和岗位能力的变化,测试团队如何依托团队合作实现预防风险的价值,如何找到产研过程中更适合自己的专业场景。
最后我们展望下AI飞速发展的未来,我们怎么扩宽知识视野,识别变与不变,修炼能不断增值的敏捷能力

内容大纲:
1. 开场-为什么来分享
    1.1 敏捷教练的新机会
    1.2 人月神话-传统工程精髓依然有效
    1.3 三个转型:员工,协作工作流,组织
2. AI Coding-文档即代码
    2.1 AI Coding成熟度
    2.2 智能化需求评审-磨刀不误砍柴工
    2.3 开发者转身-主导四件事
    2.4 专家技能蒸馏与工具能力
3. AI Testing-构建确定性
    3.1 测试的困惑
    3.2 走向源头的源头-刷新生产关系,强化契约
    3.3 AI与接口自动化测试
    3.4 测试策略因子
    3.5 探索式测试
    3.6 持续测试门禁
    3.7 AI与质量分析
4. 组织管理的转型-以人为本
    4.1 诊断团队,明确方向
    4.2 全面理解harness engineering
    4.3 高质量的知识库
    4.4 激励人机协作的工作流
    4.5 员工的踏实成长
    4.6 AI工程的效能度量,激励与成本控制
5. 结语-90多岁大师兄的感言

听众收益:
1. 分享AI新时代下工程师如何自我修炼。
2. 理解AI coding背景下测试人员面临比开发更大的挑战
3. 如何从敏捷研发生命周期中找到新工作流的提效亮点,并提升AI生成软件的可控性。
关注QECon公众号
关注QECon视频号
议题投稿 
speaker@qecon.com.cn
票务联系 
18649077637  Lily 
 
媒体合作
135-1619-6409  皮皮
商务合作
151-2264-3988  木子
购票咨询
18649077637  Lily
服务总线
400-183-9980  
电话咨询
联系电话:
18649077637  Lily