专场:LLM赋能专项测试新实践 
本论坛聚焦大模型与Agent技术在专项测试领域的深度实践。围绕性能分析、数据质量、故障排障等核心场景,展示LLM如何突破专项测试对专家经验的高度依赖,通过智能诊断与Agentic工作流重塑测试范式,推动从经验驱动向AI驱动的能力跃升。
专场出品人:刘卓夫 
腾讯 TEG 云架构平台部 测试质量中心 副总监
腾讯 TEG 云架构平台部 测试团队负责人,测试和研效领域专家,主导部门测试基础设施与测试体系建设,擅长通过技术创新来推动测试效率与质量的提升。
付文兰
快手主站质量直播营收产品
方向负责人
快手直播营收业务质量负责人,聚焦直播营收相关业务的质量保障、线上稳定性治理、故障演练及常态化压测,保障核心业务稳定运行与用户体验;主导AI FIRST策略下主站质量AI方向1.0探索与建设,推动质量智能化落地与效能提升。

先后任职于滴滴、贝壳等企业,深度参与出行、VR、直播等多条核心业务质量体系搭建,在分布式系统高可用、全链路压测、质量平台建设与智能化质量保障等方向具备扎实实践;擅长以业务价值为导向,构建稳定、高效、可规模化的质量保障体系。
待定
待定
排障 Agentic 架构:
快手主站复杂生态下的排障知识连接与 AI 提效实战
议题背景:
在年化近20000条问题反馈的超大规模业务中,传统排障模式面临严重瓶颈:1.客诉信息传递链路长且易丢失;2.高度依赖极少数专家经验;3.分散的排障工具认知门槛高,导致“研发Oncall沦为无情的中转站”。
为此,我们推出“智驭”一站式AI排障专家助手:以AI为智能大脑,串联问题研判、专家经验抽取与排查工具调度与使用;将分散诊断工具通过技能市场管理起来,实现AI对主站排障生产力的精准调用;与全业务线标准工单系统联动,构建从客服拦截到技术解决的端到端数据流。
落地效果:改变客诉排障新交付关系,已经成为快手主站客诉问题排障必备伴侣,2025年验证数据显示,客诉工单单均研测SP下降16.5pp,技术支持角色问题拦截率上涨12.8pp,提升客诉问题质量水位17pp,成功验证AI重塑排障协作范式的业务价值。

内容大纲:
1. 破局:复杂生态下的排障之痛与“智驭”解法
    1.1 传统模式的“死胡同”
          1.1.1 信息失真:用户体验→客服→技术支持→研发流转中的关键信息衰减
          1.1.2 “漏斗”坍塌:客服拦截率低下,研发Oncall深陷路由分发泥潭(xx%问题需拉Owner确认)
          1.1.3 工具孤岛:排障工具日益丰富但认知成本陡增,专家经验与问题难以高效匹配
    1.2 智驭架构设计:重塑排障交付关系
          1.2.1 核心理念:从“人找工具/专家”转变为“AI调度工具/知识闭环”
          1.2.2 大脑与四肢:基于大模型的顶层推理决策(大脑) + 精准调取排障生产力(MCP化工具接入)
          1.2.3 工具库使用:技能调度使用
    1.3 端到端流转设计:打通标准化问题全生命周期(感知-研判-决策-执行-复盘)
2. 核心技术实践:一站式智能排障的深度解析
    2.1 智能前置拦截:切断无效问题的“水龙头”
          2.1.1 技术实现:联动标准化单据模型,构建端到端流转链路;结合大模型与检索增强(RAG),沉淀2000+条知识库
          2.1.2 实践收益:客服侧无效工单触达减少9.4pp,有效实现防微杜渐
    2.2 多维排障子能力调度:让AI学会使用工具
          2.2.1 行为重构:基于用户日志、数据实验与变更记录的“行为特征还原”
          2.2.2 工具MCP化改造踩坑:解决工具权限壁垒与品牌割裂感;从“纯引流”向“结论直出”演进
          2.2.3 效果数据:排障工具推荐召回率稳定在80%水位,辅助复现采纳率超82%
    2.3 资产反哺:从“强力助理”到“知识中心”
          2.3.1 复盘引擎:客观时间线自动抓取(采纳率77%)与根因智能总结(采纳率52.5%)
          2.3.2 系统性风险洞察:海量处置数据标准化处理,反向牵引排障工具迭代
3. 落地避坑与效能转化的实战启示
    3.1 认知重构:不要迷信模型,重视数据资产
          3.1.1 核心洞察:“AI时代能力立下限,知识拔上限”——私域存量知识的清洗与升维是重中之重
    3.2 组织效能与ROI
          3.2.1 工单流转效率的极致压缩(单均研测耗时下降16.5pp的背后逻辑)
          3.2.2 人员结构优化:释放一线研发工程师精力,赋能前置技术支持团队承担更复杂工作
    3.3 2026演进路线:迈向完全自愈的设想
          3.3.1 从排查建议到结论直出
          3.3.2 横向BU的标准化工具推广策略

听众收益:
1. 获取可落地的智能化排障架构方案:深入了解大模型(大脑)与MCP化工具(四肢)结合的模式,解决大规模业务线中跨团队问题定位慢、工具触达难的痛点。
2. 掌握AI辅助质量保障的避坑指南:避免“纯引流不提效”的误区,明确“私域数据治理决定AI能力上限”的核心逻辑,少走弯路。
3. 获取效能度量与ROI提升的参考:学习通过标准化问题流转链路,量化AI在拦截率、研发工时下降(如16.5pp)等维度的价值,为团队效能转型提供数据支撑与策略参考
李景华
腾讯 应用宝质效体系负责人
深耕研发领域10+年,现任腾讯应用宝质效体系负责人,主导全链路质效体系从0到1搭建,通过“敏捷+精益”流程重构、AI辅助智能自动化测试、质效度量闭环,助应用宝成为高效能研发团队。曾就职于全球顶尖的IT咨询公司Thoughtworks(,作为核心创始成员创立BeeArt系列提效工具矩阵,服务10+行业头部客户。核心能力聚焦质效体系构建、智能自动化测试、团队效能激活,用数据驱动突破瓶颈,打造高效能团队。
待定
待定
基于Langgraph的应用游戏智能化测试实战
议题背景:
随着大模型的快速发展,智能测试成为大家关注的议题,基于视觉识别的通用智能测试成为行业的诉求,但是基于视觉识别在自动化测试中稳定性、准确性和测试效率等方面均面临重要难题,腾讯应用宝从6W+的应用游戏的智能探索测试实战中,总结了一套可复用,可以扩展,具有较高稳定性和准确率的架构:从基于大模型的Function Call架构,再到基于任务的链式架构(LangChain), 目前升级到基于控制流的图式架构(LangGraph),每一次迭代升级都是行业难点的攻克;
本次分享将以通用视觉识别为基点,以LangGraph架构为核心,通过腾讯应用宝的实战案例,阐述通用智能测试中各个难点的解决方案!

内容大纲:
1. 通用智能测试行业的难点和痛点
    1.1 腾讯应用宝业务痛点与诉求
    1.2 行业面临难点和痛点
2. 腾讯应用宝智能自动化测试实战
    2.1 基于视觉识别的自动化测试解决方案
    2.2 通用智能自动化测试架构设计及演进
    2.3 智能测试的技术选型
    2.4 通用智能测试的核心能力矩阵
    2.5 用例同源机制
    2.6 实战Demo Showcase
3. 通用自动化测试效果评估
    3.1 基础效果评估(准确性、稳定性、效率)
    3.2 投入成本与产出评估

听众收益:
1. 一套通用的智能测试解决方案
2. 基于Langgraph+MCP的智能测试实践经验
3. 一套通用的通用的自动化效果评估方法
杜瑶 / 赵思
快手 资深数据测试开发工程师
姓名:杜瑶
快手商业化内循环与原生qa团队,主要从事领域:广告、酒旅、互联网金融等互联网行业,质量域涉及从服务端到数据的测试保障。
从业经历:
美团 - 酒旅 测试开发工程师
快手 -商业化 内循环与原生数据组 资深数据测试开发工程师
当前职责:
当前主要负责商业化广告数据业务的质量保障工作
 
姓名:赵思
快手商业化内循环与原生qa团队,主要从事大数据工程&数据业务相关的保障工作,在数据质量保障方面具有丰富的经验。
从业经历:
百度 - 百度智能云质量组 大数据测试开发工程师
美团 - 美团优选数据智能组 大数据测试开发工程师
快手 - 商业化内循环与原生质量组 资深测试开发工程师
当前职责:
当前主要负责商业化外循环实时流归因、报表以及离线数仓的质量保障工作
待定
待定
AI双擎驱动数据质量保障:
SQL用例生成与智能DQC规则推荐的双引擎实践
议题背景:
在快手大数据生态中,数据质量保障面临双重挑战:一方面,DQC规则配置依赖人工经验,新人缺少业务背景不知如何配置,个人质量意识差异导致监控覆盖率参差不齐;另一方面,数据测试SQL用例编写耗时占比最高,不仅需要熟悉需求逻辑,还需具备良好的SQL基础,能力差异导致投入时长参差不齐。我们期望借助大模型的通用能力,构建智能化的数据质量保障体系,降低门槛、提升效率、标准化流程。

内容大纲:
一、业务背景
商业化数据价值与保障难点
二、传统痛点
用例编写成本高、监控覆盖不全
三、双引擎方案
1. SQL用例生成:Claw智能编排多Agent协同,自动化生成
2. DQC智能推荐:五维评估框架驱动规则治理闭环
四、核心价值
从"人工执行"到"智能重构"

林梓标
 腾讯 高级测试开发工程师
腾讯高级测试开发工程师,主导腾讯云架构平台部性能测试平台与视频编解码平台建设,支撑存储、CDN、云网关等核心业务的性能测试体系,在性能测试架构与数据分析领域经验丰富。
待定
待定
AI 赋能性能分析的实践探索
主题摘要:
性能测试的价值不在于"跑完了",而在于"分析透了"。在实际工作中,测试有效性验证和结果分析往往占据大量时间 -- 数据采全了吗?压力真的打满了吗?瓶颈到底卡在哪一层?这些问题过去高度依赖个人经验,不同人看同一份数据可能得出不同结论。
为了解决这个问题,我们构建了一套可信性能分析 AI Agent 系统。整个系统以 Harness Engineering 为工程底座:先通过数据验证确认压测数据是否可用,再由自主规划式 Agent 调用多维分析 Skill;Skill 内部封装平台工具协议、数据获取和预处理逻辑,把专家经验拆成可执行、可校验、可迭代的能力。对于工程算法难以完全覆盖、或容易产生判断误差的曲线趋势边界场景,我们引入“确定性算法 + 曲线图二次校验”机制,在保留算法主路径稳定性的基础上,通过曲线图视角进行二次校验,提高趋势判断的置信度和可信度。同时,我们建设 Eval Harness 与受控能力迭代闭环,从执行轨迹、分析结果、重复稳定性和 BadCase 回归等维度持续验证和增强 Agent 分析质量。

内容大纲:
1. 性能测试的信任危机与分析困境
    1.1 测试结果的可信度问题:数据完整性、压力充分性、结论一致性
    1.2 人工分析的效率与质量瓶颈:多维指标关联难、经验路径难沉淀、标准化程度低
2. 数据验证:AI 诊断前的质量门禁
    2.1 指标契约、采集协议、基线对比与数据完整性检查
    2.2 有效性验证:压力充分性、曲线模式、跨维异常和预期对比
3. 确定性算法 + 曲线图二次校验
    3.1 工程算法先完成曲线趋势、波动模式和异常形态的确定性判断
    3.2 对算法难以完全覆盖或容易产生误差的曲线形态,引入曲线图二次校验,提高趋势判断置信度
4. Harness Engineering 与受约束 Agent
    4.1 Harness:任务环境、工具接口、上下文管理、观测链路和评测回归
    4.2 自主规划式 Agent:Prompt + Context 工程约束分析路径
    4.3 Skill 工具封装:Skill 内部封装工具协议、数据获取与预处理
5. 规则化专家经验与诊断链路
    5.1 四阶段分析方法论:有效性验证、资源瓶颈识别、根因诊断、优化建议
    5.2 决策树、规则匹配、因果模板与报告校验
6. Eval Harness:怎么证明 AI 分析可信
    6.1 评测任务设计:脱敏 / 仿真 Case + 预期轨迹 + 预期结果,覆盖正向和反向场景
    6.2 三维评分:轨迹是否符合预设流程、结果是否准确、多次执行是否稳定
    6.3 评测工程化:回归 Case、数据仿真、BadCase 回归验证
7. 受控能力迭代:从 BadCase 到能力增强
    7.1 Skill gap 识别、改进建议、评测门禁、审批发布和回滚
    7.2 落地边界:受控迭代,不做未经评测和审批的自动发布

听众收益:
1. 性能测试体系的建设
2. 性能测试数据AI智能化分析的探索实践
3. 性能分析AI Agent测评体系建设 
关注QECon公众号
关注QECon视频号
议题投稿 
speaker@qecon.com.cn
票务联系 
18649077637  Lily 
 
媒体合作
135-1619-6409  皮皮
商务合作
151-2264-3988  木子
购票咨询
18649077637  Lily
服务总线
400-183-9980  
电话咨询
联系电话:
18649077637  Lily