LLM赋能专项测试新实践-2026深圳站_QECon全球软件质量效能大会-橙柚科技

优惠倒计时

8折票抢购中

团购享更多优惠

北京站 · 10月16-17日

上海站 · 9月4-5日

深圳站 · 5月22-23日

专场：LLM赋能专项测试新实践

本论坛聚焦大模型与Agent技术在专项测试领域的深度实践。围绕性能分析、数据质量、故障排障等核心场景，展示LLM如何突破专项测试对专家经验的高度依赖，通过智能诊断与Agentic工作流重塑测试范式，推动从经验驱动向AI驱动的能力跃升。

专场出品人：刘卓夫

腾讯 TEG 云架构平台部测试质量中心副总监

腾讯 TEG 云架构平台部测试团队负责人，测试和研效领域专家，主导部门测试基础设施与测试体系建设，擅长通过技术创新来推动测试效率与质量的提升。

付文兰

快手主站质量直播营收产品

方向负责人

快手直播营收业务质量负责人，聚焦直播营收相关业务的质量保障、线上稳定性治理、故障演练及常态化压测，保障核心业务稳定运行与用户体验；主导AI FIRST策略下主站质量AI方向1.0探索与建设，推动质量智能化落地与效能提升。

先后任职于滴滴、贝壳等企业，深度参与出行、VR、直播等多条核心业务质量体系搭建，在分布式系统高可用、全链路压测、质量平台建设与智能化质量保障等方向具备扎实实践；擅长以业务价值为导向，构建稳定、高效、可规模化的质量保障体系。

待定

排障 Agentic 架构：

快手主站复杂生态下的排障知识连接与 AI 提效实战

议题背景：
在年化近20000条问题反馈的超大规模业务中，传统排障模式面临严重瓶颈：1.客诉信息传递链路长且易丢失；2.高度依赖极少数专家经验；3.分散的排障工具认知门槛高，导致“研发Oncall沦为无情的中转站”。
为此，我们推出“智驭”一站式AI排障专家助手：以AI为智能大脑，串联问题研判、专家经验抽取与排查工具调度与使用；将分散诊断工具通过技能市场管理起来，实现AI对主站排障生产力的精准调用；与全业务线标准工单系统联动，构建从客服拦截到技术解决的端到端数据流。
落地效果：改变客诉排障新交付关系，已经成为快手主站客诉问题排障必备伴侣，2025年验证数据显示，客诉工单单均研测SP下降16.5pp，技术支持角色问题拦截率上涨12.8pp，提升客诉问题质量水位17pp，成功验证AI重塑排障协作范式的业务价值。

内容大纲：
1. 破局：复杂生态下的排障之痛与“智驭”解法
1.1 传统模式的“死胡同”
1.1.1 信息失真：用户体验→客服→技术支持→研发流转中的关键信息衰减
1.1.2 “漏斗”坍塌：客服拦截率低下，研发Oncall深陷路由分发泥潭（xx%问题需拉Owner确认）
1.1.3 工具孤岛：排障工具日益丰富但认知成本陡增，专家经验与问题难以高效匹配
1.2 智驭架构设计：重塑排障交付关系
1.2.1 核心理念：从“人找工具/专家”转变为“AI调度工具/知识闭环”
1.2.2 大脑与四肢：基于大模型的顶层推理决策（大脑） + 精准调取排障生产力（MCP化工具接入）
1.2.3 工具库使用：技能调度使用
1.3 端到端流转设计：打通标准化问题全生命周期（感知-研判-决策-执行-复盘）
2. 核心技术实践：一站式智能排障的深度解析
2.1 智能前置拦截：切断无效问题的“水龙头”

2.1.1 技术实现：联动标准化单据模型，构建端到端流转链路；结合大模型与检索增强（RAG），沉淀2000+条知识库
2.1.2 实践收益：客服侧无效工单触达减少9.4pp，有效实现防微杜渐
2.2 多维排障子能力调度：让AI学会使用工具
2.2.1 行为重构：基于用户日志、数据实验与变更记录的“行为特征还原”
2.2.2 工具MCP化改造踩坑：解决工具权限壁垒与品牌割裂感；从“纯引流”向“结论直出”演进
2.2.3 效果数据：排障工具推荐召回率稳定在80%水位，辅助复现采纳率超82%
2.3 资产反哺：从“强力助理”到“知识中心”
2.3.1 复盘引擎：客观时间线自动抓取（采纳率77%）与根因智能总结（采纳率52.5%）
2.3.2 系统性风险洞察：海量处置数据标准化处理，反向牵引排障工具迭代
3. 落地避坑与效能转化的实战启示
3.1 认知重构：不要迷信模型，重视数据资产
3.1.1 核心洞察：“AI时代能力立下限，知识拔上限”——私域存量知识的清洗与升维是重中之重
3.2 组织效能与ROI
3.2.1 工单流转效率的极致压缩（单均研测耗时下降16.5pp的背后逻辑）
3.2.2 人员结构优化：释放一线研发工程师精力，赋能前置技术支持团队承担更复杂工作
3.3 2026演进路线：迈向完全自愈的设想
3.3.1 从排查建议到结论直出
3.3.2 横向BU的标准化工具推广策略

听众收益：
1. 获取可落地的智能化排障架构方案：深入了解大模型（大脑）与MCP化工具（四肢）结合的模式，解决大规模业务线中跨团队问题定位慢、工具触达难的痛点。
2. 掌握AI辅助质量保障的避坑指南：避免“纯引流不提效”的误区，明确“私域数据治理决定AI能力上限”的核心逻辑，少走弯路。
3. 获取效能度量与ROI提升的参考：学习通过标准化问题流转链路，量化AI在拦截率、研发工时下降（如16.5pp）等维度的价值，为团队效能转型提供数据支撑与策略参考

李景华

腾讯应用宝质效体系负责人

深耕研发领域10+年，现任腾讯应用宝质效体系负责人，主导全链路质效体系从0到1搭建，通过“敏捷+精益”流程重构、AI辅助智能自动化测试、质效度量闭环，助应用宝成为高效能研发团队。曾就职于全球顶尖的IT咨询公司Thoughtworks（，作为核心创始成员创立BeeArt系列提效工具矩阵，服务10+行业头部客户。核心能力聚焦质效体系构建、智能自动化测试、团队效能激活，用数据驱动突破瓶颈，打造高效能团队。

待定

基于Langgraph的应用游戏智能化测试实战

议题背景：
随着大模型的快速发展，智能测试成为大家关注的议题，基于视觉识别的通用智能测试成为行业的诉求，但是基于视觉识别在自动化测试中稳定性、准确性和测试效率等方面均面临重要难题，腾讯应用宝从6W+的应用游戏的智能探索测试实战中，总结了一套可复用，可以扩展，具有较高稳定性和准确率的架构：从基于大模型的Function Call架构，再到基于任务的链式架构(LangChain), 目前升级到基于控制流的图式架构(LangGraph)，每一次迭代升级都是行业难点的攻克；
本次分享将以通用视觉识别为基点，以LangGraph架构为核心，通过腾讯应用宝的实战案例，阐述通用智能测试中各个难点的解决方案！

内容大纲：
1. 通用智能测试行业的难点和痛点
1.1 腾讯应用宝业务痛点与诉求
1.2 行业面临难点和痛点
2. 腾讯应用宝智能自动化测试实战
2.1 基于视觉识别的自动化测试解决方案
2.2 通用智能自动化测试架构设计及演进
2.3 智能测试的技术选型
2.4 通用智能测试的核心能力矩阵
2.5 用例同源机制
2.6 实战Demo Showcase
3. 通用自动化测试效果评估
3.1 基础效果评估(准确性、稳定性、效率)
3.2 投入成本与产出评估

听众收益：
1. 一套通用的智能测试解决方案
2. 基于Langgraph+MCP的智能测试实践经验
3. 一套通用的通用的自动化效果评估方法

杜瑶 / 赵思

快手资深数据测试开发工程师

姓名：杜瑶
快手商业化内循环与原生qa团队，主要从事领域：广告、酒旅、互联网金融等互联网行业，质量域涉及从服务端到数据的测试保障。
从业经历：
美团 - 酒旅测试开发工程师
快手 -商业化内循环与原生数据组资深数据测试开发工程师
当前职责：
当前主要负责商业化广告数据业务的质量保障工作

姓名：赵思
快手商业化内循环与原生qa团队，主要从事大数据工程&数据业务相关的保障工作，在数据质量保障方面具有丰富的经验。
从业经历：
百度 - 百度智能云质量组大数据测试开发工程师
美团 - 美团优选数据智能组大数据测试开发工程师
快手 - 商业化内循环与原生质量组资深测试开发工程师
当前职责：
当前主要负责商业化外循环实时流归因、报表以及离线数仓的质量保障工作

待定

AI双擎驱动数据质量保障：

SQL用例生成与智能DQC规则推荐的双引擎实践

议题背景：

在快手大数据生态中，数据质量保障面临双重挑战：一方面，DQC规则配置依赖人工经验，新人缺少业务背景不知如何配置，个人质量意识差异导致监控覆盖率参差不齐；另一方面，数据测试SQL用例编写耗时占比最高，不仅需要熟悉需求逻辑，还需具备良好的SQL基础，能力差异导致投入时长参差不齐。我们期望借助大模型的通用能力，构建智能化的数据质量保障体系，降低门槛、提升效率、标准化流程。

内容大纲：
一、业务背景
商业化数据价值与保障难点
二、传统痛点
用例编写成本高、监控覆盖不全
三、双引擎方案
1. SQL用例生成：Claw智能编排多Agent协同，自动化生成
2. DQC智能推荐：五维评估框架驱动规则治理闭环
四、核心价值
从"人工执行"到"智能重构"

林梓标

腾讯高级测试开发工程师

腾讯高级测试开发工程师，主导腾讯云架构平台部性能测试平台与视频编解码平台建设，支撑存储、CDN、云网关等核心业务的性能测试体系，在性能测试架构与数据分析领域经验丰富。

待定

AI 赋能性能分析的实践探索

主题摘要：
性能测试的价值不在于"跑完了"，而在于"分析透了"。在实际工作中，测试有效性验证和结果分析往往占据大量时间 -- 数据采全了吗？压力真的打满了吗？瓶颈到底卡在哪一层？这些问题过去高度依赖个人经验，不同人看同一份数据可能得出不同结论。
为了解决这个问题，我们构建了一套可信性能分析 AI Agent 系统。整个系统以 Harness Engineering 为工程底座：先通过数据验证确认压测数据是否可用，再由自主规划式 Agent 调用多维分析 Skill；Skill 内部封装平台工具协议、数据获取和预处理逻辑，把专家经验拆成可执行、可校验、可迭代的能力。对于工程算法难以完全覆盖、或容易产生判断误差的曲线趋势边界场景，我们引入“确定性算法 + 曲线图二次校验”机制，在保留算法主路径稳定性的基础上，通过曲线图视角进行二次校验，提高趋势判断的置信度和可信度。同时，我们建设 Eval Harness 与受控能力迭代闭环，从执行轨迹、分析结果、重复稳定性和 BadCase 回归等维度持续验证和增强 Agent 分析质量。

内容大纲：
1. 性能测试的信任危机与分析困境
1.1 测试结果的可信度问题：数据完整性、压力充分性、结论一致性
1.2 人工分析的效率与质量瓶颈：多维指标关联难、经验路径难沉淀、标准化程度低
2. 数据验证：AI 诊断前的质量门禁
  2.1 指标契约、采集协议、基线对比与数据完整性检查
  2.2 有效性验证：压力充分性、曲线模式、跨维异常和预期对比
3. 确定性算法 + 曲线图二次校验
  3.1 工程算法先完成曲线趋势、波动模式和异常形态的确定性判断
  3.2 对算法难以完全覆盖或容易产生误差的曲线形态，引入曲线图二次校验，提高趋势判断置信度
4. Harness Engineering 与受约束 Agent
  4.1 Harness：任务环境、工具接口、上下文管理、观测链路和评测回归
  4.2 自主规划式 Agent：Prompt + Context 工程约束分析路径
  4.3 Skill 工具封装：Skill 内部封装工具协议、数据获取与预处理
5. 规则化专家经验与诊断链路
  5.1 四阶段分析方法论：有效性验证、资源瓶颈识别、根因诊断、优化建议
  5.2 决策树、规则匹配、因果模板与报告校验
6. Eval Harness：怎么证明 AI 分析可信
  6.1 评测任务设计：脱敏 / 仿真 Case + 预期轨迹 + 预期结果，覆盖正向和反向场景
  6.2 三维评分：轨迹是否符合预设流程、结果是否准确、多次执行是否稳定
  6.3 评测工程化：回归 Case、数据仿真、BadCase 回归验证
7. 受控能力迭代：从 BadCase 到能力增强
  7.1 Skill gap 识别、改进建议、评测门禁、审批发布和回滚
  7.2 落地边界：受控迭代，不做未经评测和审批的自动发布

听众收益：

1. 性能测试体系的建设
2. 性能测试数据AI智能化分析的探索实践
3. 性能分析AI Agent测评体系建设