专场:LLM赋能专项测试新实践 
......
专场出品人:
......
......
付文兰
快手 主站质量与效能中心
直播营收业务质量负责人
快手直播营收业务质量负责人,聚焦直播营收相关业务的质量保障、线上稳定性治理、故障演练及常态化压测,保障核心业务稳定运行与用户体验;主导AI FIRST策略下主站质量AI方向1.0探索与建设,推动质量智能化落地与效能提升。

先后任职于滴滴、贝壳等企业,深度参与出行、VR、直播等多条核心业务质量体系搭建,在分布式系统高可用、全链路压测、质量平台建设与智能化质量保障等方向具备扎实实践;擅长以业务价值为导向,构建稳定、高效、可规模化的质量保障体系。
待定
待定
排障 Agentic 架构:
快手主站复杂生态下的排障知识连接与 AI 提效实战
议题背景:
在年化近20000条问题反馈的超大规模业务中,传统排障模式面临严重瓶颈:1.客诉信息传递链路长且易丢失;2.高度依赖极少数专家经验;3.分散的排障工具认知门槛高,导致“研发Oncall沦为无情的中转站”。
为此,我们推出“智驭”一站式AI排障专家助手:以AI为智能大脑,串联问题研判、专家经验抽取与排查工具调度与使用;将分散诊断工具通过技能市场管理起来,实现AI对主站排障生产力的精准调用;与全业务线标准工单系统联动,构建从客服拦截到技术解决的端到端数据流。
落地效果:改变客诉排障新交付关系,已经成为快手主站客诉问题排障必备伴侣,2025年验证数据显示,客诉工单单均研测SP下降16.5pp,技术支持角色问题拦截率上涨12.8pp,提升客诉问题质量水位17pp,成功验证AI重塑排障协作范式的业务价值。

内容大纲:
1. 破局:复杂生态下的排障之痛与“智驭”解法
    1.1 传统模式的“死胡同”
          1.1.1 信息失真:用户体验→客服→技术支持→研发流转中的关键信息衰减
          1.1.2 “漏斗”坍塌:客服拦截率低下,研发Oncall深陷路由分发泥潭(xx%问题需拉Owner确认)
          1.1.3 工具孤岛:排障工具日益丰富但认知成本陡增,专家经验与问题难以高效匹配
    1.2 智驭架构设计:重塑排障交付关系
          1.2.1 核心理念:从“人找工具/专家”转变为“AI调度工具/知识闭环”
          1.2.2 大脑与四肢:基于大模型的顶层推理决策(大脑) + 精准调取排障生产力(MCP化工具接入)
          1.2.3 工具库使用:技能调度使用
    1.3 端到端流转设计:打通标准化问题全生命周期(感知-研判-决策-执行-复盘)
2. 核心技术实践:一站式智能排障的深度解析
    2.1 智能前置拦截:切断无效问题的“水龙头”
          2.1.1 技术实现:联动标准化单据模型,构建端到端流转链路;结合大模型与检索增强(RAG),沉淀2000+条知识库
          2.1.2 实践收益:客服侧无效工单触达减少9.4pp,有效实现防微杜渐
    2.2 多维排障子能力调度:让AI学会使用工具
          2.2.1 行为重构:基于用户日志、数据实验与变更记录的“行为特征还原”
          2.2.2 工具MCP化改造踩坑:解决工具权限壁垒与品牌割裂感;从“纯引流”向“结论直出”演进
          2.2.3 效果数据:排障工具推荐召回率稳定在80%水位,辅助复现采纳率超82%
    2.3 资产反哺:从“强力助理”到“知识中心”
          2.3.1 复盘引擎:客观时间线自动抓取(采纳率77%)与根因智能总结(采纳率52.5%)
          2.3.2 系统性风险洞察:海量处置数据标准化处理,反向牵引排障工具迭代
3. 落地避坑与效能转化的实战启示
    3.1 认知重构:不要迷信模型,重视数据资产
          3.1.1 核心洞察:“AI时代能力立下限,知识拔上限”——私域存量知识的清洗与升维是重中之重
    3.2 组织效能与ROI
          3.2.1 工单流转效率的极致压缩(单均研测耗时下降16.5pp的背后逻辑)
          3.2.2 人员结构优化:释放一线研发工程师精力,赋能前置技术支持团队承担更复杂工作
    3.3 2026演进路线:迈向完全自愈的设想
          3.3.1 从排查建议到结论直出
          3.3.2 横向BU的标准化工具推广策略

听众收益:
1. 获取可落地的智能化排障架构方案:深入了解大模型(大脑)与MCP化工具(四肢)结合的模式,解决大规模业务线中跨团队问题定位慢、工具触达难的痛点。
2. 掌握AI辅助质量保障的避坑指南:避免“纯引流不提效”的误区,明确“私域数据治理决定AI能力上限”的核心逻辑,少走弯路。
3. 获取效能度量与ROI提升的参考:学习通过标准化问题流转链路,量化AI在拦截率、研发工时下降(如16.5pp)等维度的价值,为团队效能转型提供数据支撑与策略参考
俞雅琪
蚂蚁集团 测试开发专家
曾任职百度、滴滴等自动驾驶部门,长期负责自动驾驶基础软件质量保障工作,熟悉主流厂商L3、L4自动驾驶软硬件架构。测试内容包含自动驾驶各类传感器、Linux、QNX、RTOS等操作系统、ROS、DDS等通信中间件、自动驾驶基础模块等等。有自动驾驶大规模仿真机群建设经验,建成落地HIL、PIL测试实验室,VIL测试平台。测试方向涵盖功能测试、性能测试、稳定性测试、异常测试(鼓掌注入测试)等。有基于ARM架构的RTOS开发经验。

目前在蚂蚁集团负责智能硬件的支付质量保障工作,产品负责AI秤、智能货柜、AI眼睛支付、智能手表支付等,产品DAU达数千万级。建设具身智能+Agent驱动的实验室自动化测试平台。
待定
待定
LLM+具身智能驱动的智能零售全链路评测体系突破
议题背景:
在智能穿戴支付与零售产品的发展中,实现高质量、高效率的全链路业务验证是构建产品竞争力的关键,也成为行业共同面临的挑战。目前常见的质量保障方法存在三方面局限:一是缺乏系统化方法批量构建贴近真实场景的高质量算法评测与训练数据集,制约了算法迭代与体验优化;二是验证多聚焦于硬件、算法等单点环节,缺乏对“用户交互-业务完成”端到端真实场景的模拟与覆盖;三是全链路测试仍大量依赖人工,操作主观性强、标准化不足,导致测试成本高、效率低且结果难以稳定复现。

内容大纲:
1. 案例简介
在智能穿戴与零售设备的爆发式增长背景下,我们构建了行业首个"具身智能+LLM"全栈自动化评测系统,突破传统质量保障模式无法应对多模态交互、物理空间操作、动态场景覆盖的三大困境。通过"具身模拟+AI合成"双引擎驱动,实现智能货柜、AI秤、AI眼镜等产品的端到端真实场景验证,成功支撑30+次关键版本迭代,推动识别准确率提升12%,问题修复周期缩短80%。
系统创新点体现在三个维度:
1)物理实体模拟:通过自主研发的机械臂(0.05mm定位精度)+灵巧手(16维力控感知)+声场复现阵列(±1dB频响精度),精准重构用户看/听/动三维交互行为
2)场景智能生成:基于大模型的场景泛化引擎,自动生成覆盖300+长尾场景的测试用例,破解AI眼镜的支付误触发、货柜动态拿取等核心痛点
3)闭环验证体系:构建从传感器数据注入→物理动作执行→多模态结果判定的完整验证链路,实现"单日千次"级压力测试能力
目前系统已形成可跨行业复用的具身智能质量保障范式,成功迁移至智能手表、智能座舱等具备人机交互领域的测试场景。
2. 关键挑战:多模态时代的质量保障破局
面对智能设备"感知-决策-执行"的全新交互范式,传统质量体系遭遇三大断点:
传统方案瓶颈 / 具身智能解决方案/提效指标
单点验证盲区:硬件/算法/场景割裂测试,无法捕获端到端交互缺陷/全链路仿真:机械臂模拟手势轨迹,人工嘴复现语音频谱,实现真实物理交互链路的数字孪生/缺陷捕获率提升65%
场景覆盖不足:人工构造场景成本高、周期长,长尾场景覆盖率<40% / 动态场景生成:基于GPT-4生成测试用例,结合强化学习优化动作序列,覆盖率达92% / 场景构建效率提升20倍
结果判定失真:人工判读易受主观影响,误报率>30%  / 多模态判决引擎:融合视觉/语音/传感器时序数据,构建多层神经网络判决模型 / 误报率降至5%
3. 技术架构:三位一体的智能验证体系
    架构图示意:感知层(多模态传感器阵列)-决策层(具身大模型)-执行层(机械臂/灵巧手/人工嘴)
    3.1 智能感知层
          3.1.1 视觉定位:YOLO V8+RGBD相机构建毫米级空间感知(±2mm定位精度)
          声场重构:128通道麦克风阵列实现声源定位(±3°方位角误差)
          触觉反馈:16维力控传感器实现自适应抓握(0.1N力度分辨率)
    3.2 决策中枢层
          3.2.1 场景生成引擎:基于LLM的测试用例自动生成,支持自然语言描述→机器可执行代码转化
          3.2.2 动态规划算法:结合Q-learning优化机械臂运动轨迹,能耗降低30%
          3.2.3 异常检测模型:LSTM网络实时分析时序数据,提前10ms预测设备异常
    3.3 精准执行层
          3.3.1 机械臂集群:移动机器人+6轴协作机械臂+灵巧手,支持3m×3m空间全域覆盖
          3.3.2 多模态交互箱:集成环境光照调节(50-10000lux)、背景噪声注入(0-90dB)
4. 创新实践:关键场景效能突破
    4.1 场景一:高仿真语音交互验证
          4.1.1 问题:收音+ASR+意图理解全链路验证困难,人工无法复现原始问题
          4.1.2 方案:使用LLM+专业人工嘴,多维度泛化高仿真语料
          4.1.3 成效:捕获7类边缘场景缺陷,误识别率从12%降至0.3%
    4.2 场景二:智能货柜动态拿取验证
          4.2.1 问题:商品位移导致识别失败,人工测试覆盖率不足
          4.2.2 方案:LLM+灵巧手模拟12种拿取角度,每秒生成20组力学数据
          4.2.3 成效:识别准确率从83%提升至98.5%
5. 行业价值:可复制的质量基建范式
    5.1 技术标准化
          制定5项机械臂操作规范、3类声学测试标准,形成行业首个《具身智能测试白皮书》
    5.2 商业落地路径
          【阶段】          【应用领域】                       【客户价值】
          【阶段】1.0      【应用领域】消费电子        【客户价值】硬件研发验证周期缩短50%
          【阶段】2.0      【应用领域】汽车电子        【客户价值】智能座舱测试成本降低70%
          【阶段】3.0      【应用领域】工业检测        【客户价值】缺陷漏检率下降至0.01%
6. 未来演进:构建自治化质量大脑
    6.1 认知增强:接入多模态大模型,实现测试用例自主进化
    6.2 弹性扩展:云端调度多设备集群,支持并发测试
    6.3 自愈闭环:基于数字孪生的实时调参,达成"测试即修复"目标

听众收益:
1. 掌握端到端物理交互验证的系统方法,提升缺陷捕获能力
具体举措:通过“机械臂+灵巧手+声场复现”构建物理实体模拟层,实现用户“看/听/动”三维交互行为的全链路仿真。
可扩散经验:适用于任何具备物理交互的智能设备(如智能座舱、服务机器人、工业终端),将原本割裂的硬件、算法、场景测试统一为闭环验证。
2. 学习如何用大模型驱动场景生成,破解长尾测试覆盖率难题
具体举措:基于GPT-4构建场景泛化引擎,将自然语言描述自动转化为可执行测试用例,并结合强化学习优化动作序列。
可扩散经验:可复制到AIoT、智能家居、AR/VR等领域,解决人工构造场景成本高、周期长、覆盖不足的共性问题。
3. 获得多模态判决引擎的构建范式,实现高精度自动化判读
具体举措:融合视觉(YOLOv8+RGBD)、语音(128通道麦克风阵列)、传感器时序数据(LSTM异常检测),构建多层神经网络判决模型。
可扩散经验:可迁移至任何需要多模态结果判定的测试场景(如智能座舱人机交互、工业视觉检测),大幅降低人工判读的主观偏差。
4. 获取具身智能测试体系的标准化路径与跨行业复用经验
具体举措:形成机械臂操作规范、声学测试标准、《具身智能测试白皮书》,并在消费电子、汽车电子、工业检测三大领域完成落地验证。
可扩散经验:为企业建立可复用的具身智能质量基建提供清晰阶段路径(1.0→2.0→3.0),避免重复造轮子。
5. 理解“单日千次级”压力测试的实现方式,加速关键版本迭代
具体举措:构建从传感器数据注入→物理动作执行→多模态结果判定的完整闭环验证链路,实现自动化、高并发、可复现的压力测试。
可扩散经验:适用于高频迭代的智能设备研发团队,显著缩短问题修复周期,提升版本发布质量

黄晓晴
淘天集团  高级测试开发工程师
目前主要负责用户营销场景的质量保障工作,负责用户营销业务AI资损专项,包含资损需求分类,AI智能打标,风险场景分析推荐,资损监控脚本生成,存量脚本有效性攻防等探索。22年毕业于北京大学,曾就职于腾讯公司
待定
待定
AI 驱动的资损智能防控体系2.0建设
议题背景:
资损防控是测试保障的底线工程。面对业务复杂度攀升与风险场景快速演化,传统依赖人工经验的模式面临人工误判或漏判导致风险覆盖不全、布控效率低、大量监控脚本空跑或失效等瓶颈。我们基于LLM,系统构建AI驱动的资损防控2.0体系,通过多Agent协同分析、结构化失血模型沉淀、知识库动态保鲜、“攻击-验证”闭环及持续评测优化方式,落地四大核心能力:需求分类+智能打标(准确率86.82%)、风险场景推荐(召回率81.82%)、监控脚本生成(逻辑一致率100%,框架一致率80%)、存量脚本AI攻防验证(半年内主动暴露无效或冗余监控80个)。上线后,AI自动过滤80%非资损需求,布控效率提升3倍以上,显著提升防控精准性与体系健壮性。

内容大纲:
1. 项目背景:
    1.1 资损布控背景:简述什么是资损布控,传统的人工资损布控流程是什么样的;
    1.2 资损攻防背景:简述什么是资损攻防,传统的资损攻防流程是什么样的。
2. 当前困境与问题定义:
    2.1 核心痛点:传统人工防控模式难以为继;
          2.1.1 人工误判或漏判导致风险覆盖不全;
          2.1.2 人工布控效率低,难以支撑高频迭代;
          2.1.3 大量监控脚本空跑或失效,资源浪费严重。
    2.2 转型契机:
          2.2.1 推动资损防控智能化升级,从“被动响应”到“智能预测 + 主动攻防”。
3. 产品方案设计:
    3.1 目标:实现资损防控体系的范式跃迁:
          超越1.0“AI辅助工具”定位,构建端到端、自进化的智能防控体系:
          实现四大转变:
                单点提效 → 全链路自动化(覆盖需求打标、场景推荐、脚本生成、布控执行);
                被动响应 → 主动攻防(上线前智能预测 + 上线后故障智能注入验证);
                经验驱动 → 数据+知识双轮驱动(结构化失血模型 + 动态知识库)
                静态评估 → 评测驱动的持续迭代(通过黄金数据集、Badcase归因构建可量化、可迭代的评测闭环)
        落地四大场景:
                需求AI智能分类+打标
                资损场景AI分析推荐
                资损监控脚本AI生成
                存量脚本AI攻防验证
    3.2 产品流程设计:构建“预测-执行-验证-进化”闭环
          3.2.1 主流程:
                  变更触发 → 多Agent协同分析 → AI自动打标/放行 → 脚本自动生成 → 人机协同 → 一键布控
          3.2.2 三大闭环机制:
                 知识进化闭环:事件沉淀 → 结构化模型 → agent定向优化 → 覆盖率提升
                 攻防验证闭环:故障注入 → 告警校验 → 自动清理失效脚本
                 评测反馈闭环:黄金数据集 + Badcase归因 → Agent定向优化
4. 技术实现细节
    4.1 技术实现1:多Agent协同架构:破解复杂业务分析瓶颈
          问题:单Agent受上下文限制,复杂场景召回率低
          方案:需求分类、资损分析、脚本生成、智能攻防4个垂直Agent协同合作
    4.2 技术实现2:监控脚本AI生成:模板匹配 + 人工轻量调整
          实现逻辑:根据一/二级分类生成脚本模板,输出可编辑框架。
          设计取舍:采用“AI模板+人工完善”而非全自动,兼顾灵活性与业务复杂性
    4.3 技术实现3:动态知识库“保鲜”机制
          实现逻辑:自动拉取线上事件、布控实例、研判案例,MD5校验触发向量库自动重建
          价值:确保AI分析始终基于最新业务状态
    4.4 技术实现4:首创AI攻防验证闭环
          实现逻辑:AI解析监控逻辑 → 自动生成攻击SQL,搭建可视化攻防操作台,支持定期巡检执行与结果追踪
          价值:让资损脚本监控真正“有效”
    4.5 技术实现5:源信息融合探索:引入代码变更分析,弥补需求文档缺失技术细节的短板
          挑战:迭代类变更缺乏完整调用链上下文,精确率承压
          策略:结合CR Context构建“应用-失血模型”映射,做逻辑“与/或”融合
    4.6 技术实现6:结构化知识资产沉淀:从规则到“失血模型模板库”
          创新方法:构建二维结构化模板(横向聚合共性风险,纵向细化业务实现),覆盖四大类父场景 × 多级子场景
          价值:为Prompt工程提供高复用知识底座,避免重复建设
    4.7 技术实现7:基于用例特性树的Prompt工程范式升级
          旧方式:基于静态规则匹配,核对点不精准
          新方法:LLM沿“功能基线树 → 资损特性树”路径推理,聚焦本次变更影响点
          价值:核对点标准化,与测试打标标准高度对齐,可直接复用
5. 评测体系与量化效果
    分层评测策略:
    任务执行成功漏斗分析:
    需求一/二级分类准确率
    资损分析模块打标/推荐场景效果
    脚本生成效果
    攻防效果
    关键数据表现:
    需求过滤
    用户反馈
    持续优化机制
    黄金数据集动态更新
    Badcase自动回收与归因
    建设可观测评测大盘
6. 未来展望
   6.1 资损防控流程优化
   6.2 资损打标能力持续探索
   6.3 资损风险推荐精细化管理
   6.4 监控脚本“智能”生成
   6.5 资损攻防能力完善

听众收益:
针对电商领域质量保障、质量管理同学,该分享可以提供高风险资损业务场景下的解决思路,并通过分享中的实际问题,规避必然存在的坑,提升复用效率
杜瑶 / 赵思
快手 资深数据测试开发工程师
姓名:杜瑶
快手商业化内循环与原生qa团队,主要从事领域:广告、酒旅、互联网金融等互联网行业,质量域涉及从服务端到数据的测试保障。
从业经历:
美团 - 酒旅 测试开发工程师
快手 -商业化 内循环与原生数据组 资深数据测试开发工程师
当前职责:
当前主要负责商业化广告数据业务的质量保障工作
 
姓名:赵思
快手商业化内循环与原生qa团队,主要从事大数据工程&数据业务相关的保障工作,在数据质量保障方面具有丰富的经验。
从业经历:
百度 - 百度智能云质量组 大数据测试开发工程师
美团 - 美团优选数据智能组 大数据测试开发工程师
快手 - 商业化内循环与原生质量组 资深测试测试开发工程师
当前职责:
当前主要负责商业化外循环实时流归因、报表以及离线数仓的质量保障工作
待定
待定
AI 双擎驱动数据质量保障:
从规则推荐到 SQL 生成的智能化升级
议题背景:
在快手大数据生态中,数据质量保障面临双重挑战:一方面,DQC规则配置依赖人工经验,新人缺少业务背景不知如何配置,个人质量意识差异导致监控覆盖率参差不齐;另一方面,数据测试SQL用例编写耗时占比最高,不仅需要熟悉需求逻辑,还需具备良好的SQL基础,能力差异导致投入时长参差不齐。我们期望借助大模型的通用能力,构建智能化的数据质量保障体系,降低门槛、提升效率、标准化流程。

内容大纲:
1. 问题分析与思考方向
    1.1 数据质量保障的现状痛点
          1.1.1 数据质量各阶段投入时长分布分析
          1.1.2 DQC规则配置的核心难点:新人无经验、质量意识差异、缺乏评估手段
          1.1.3 SQL用例编写的高门槛与低效率问题
    1.2 思考方向:AI能帮我们做什么?
          1.2.1 文本理解&信息提取:提升人为分析效率
          1.2.2 智能规则生成:降低配置门槛
          1.2.3 文生SQL:消除人为水平差异
2. 智能推荐:AI评估与推荐DQC规则
    2.1 问题分析与解决思路
          2.1.1 痛点聚焦:一张表需要配置大量DQC规则,工作量巨大
          2.1.2 影响因素分析:质量意识和业务经验是关键变量
          2.1.3 解决思路:借助大模型识别风险、自动生成DQC规则
    2.2 技术方案设计
          2.2.1 数据血缘分析:利用血缘、基线挂载能力分析表的使用场景
          2.2.2 风险评估机制:自动获取线上监控内容,AI识别质量风险点
          2.2.3 智能推荐策略:根据表的分层特性(DWD/DWS/APP)和业务特性做规则推荐
    2.3 踩坑与工程实践
          2.3.1 大模型对业务理解不准确的校准机制
          2.3.2 规则参数生成的准确性保障措施
          2.3.3 DQC规则推荐的可解释性设计
          2.3.4 流水线低侵入性接入方案
    2.4 落地效果与收益
          2.4.1 DQC规则覆盖率提升:从XX%提升至XX%
          2.4.2 新人配置DQC的上手周期从XX周缩短至XX天
          2.4.3 平台体验入口与使用数据展示
3. 测试提效:AI赋能离线数据测试
    3.1 问题分析与解决思路
          3.1.1 痛点聚焦:SQL用例编写投入时长占比最高
          3.1.2 根本原因:需同时熟悉需求逻辑+具备良好SQL基础,能力因人而异
          3.1.3 解决思路:AI自动从需求文档生成测试用例和SQL脚本
    3.2 技术方案设计
          3.2.1 Agent层架构:文档解析 → 用例提取 → 文生SQL
          3.2.2 文档解析能力:自动提取需求文档中的验证点
          3.2.3 用例提取逻辑:识别测试场景并生成测试用例描述
          3.2.4 文生SQL能力:自然语言精准转化为可执行SQL脚本
    3.3 踩坑与工程实践
          3.3.1 SQL语法正确性校验机制
          3.3.2 业务逻辑与SQL语义的一致性保障
          3.3.3 App层一键执行功能的交互优化
          3.3.4 与现有测试平台的集成方案
    3.4 落地效果与收益
          3.4.1 SQL用例编写效率提升:平均耗时从XX小时降低至XX分钟
          3.4.2 数据测试门槛显著降低,非专业QA也能快速产出
          3.4.3 演示DEMO:从需求文档到可执行SQL的全流程展示

可落地的AI应用方法论:了解如何将大模型能力应用于数据质量保障场景,获得从需求分析、技术选型到工程落地的完整实践经验,可直接借鉴应用于自身业务。
双引擎架构设计思路:学习DQC规则推荐与SQL用例生成双引擎的架构设计,理解Agent层与App层的职责划分,以及如何与现有基建能力协同。
数据质量保障效能提升的具体数据:了解快手在AI赋能数据质量后的具体量化收益数据,包括效率提升比例、覆盖率提升幅度等,为自身团队效能评估提供参考基准。
踩坑经验与解决方案:提前了解在AI赋能数据质量过程中可能遇到的技术坑(如大模型业务理解偏差、SQL语法校验等),以及对应的工程解决方案,少走弯路。
智能化测试的演进路径:获得从传统人工测试向智能化测试转型的演进路线图,了解即将上线的功能方向和技术演进趋势,提前布局团队能力建设。

关注QECon公众号
关注QECon视频号
议题投稿 
lijie@qecon.net  
票务联系 
18649077637  Lily 
 
媒体合作
135-1619-6409  皮皮
商务合作
151-2264-3988  木子
购票咨询
18649077637  Lily
服务总线
400-183-9980  
电话咨询
联系电话:
18649077637  Lily