Agent驱动的智能化测试 -2026深圳站_QECon全球软件质量效能大会-橙柚科技

优惠倒计时

8折票抢购中

团购享更多优惠

北京站 · 10月16-17日

上海站 · 9月4-5日

深圳站 · 5月22-23日

专场：Agent驱动的智能化测试

软件产品迭代提速、架构与业务复杂度攀升，传统测试已难以适配需求，AI Agent正推动测试从脚本自动化迈向自主决策的智能化新阶段，破解脚本维护难、缺陷定位滞后等痛点，也带来技术落地与能力升级的新命题。本次专场聚焦Agent驱动的智能化测试，探讨其如何重构质量保障流程，解析核心价值与实践路径，梳理测试人员转型方向，汇聚众多一线实践者在此交流经验、探索智能测试新范式。

专场出品人：李晓蕾

字节跳动质量智能化专家

互联网质量技术领域方向10年+的实战经验，曾在百度、滴滴就职，主要负责调用链路/用户级链路异常检测、客服质检等方向，当前在字节质量技术负责质量智能方面的能力深耕。

王一勃

58同城 AI 应用工程师

58同城AI应用研发工程师，拥有多年一线研发与质量保障经验，拥有多项AI测试发明专利。曾专注于AI代码辅助工具的研发，深入探究AI技术的实现细节与潜在风险。目前致力于将AI技术与软件测试深度融合，主导构建智能测试解决方案，通过大模型与自动化技术构建新一代智能测试体系，为研发效能的全面提升提供核心支持。

待定

基于自然语言驱动的 Agent 智能测试实践

议题背景：
随着大模型能力的跃迁，软件测试正加速从“脚本驱动”走向“自然语言驱动”。然而，在实际落地过程中，大模型难以理解复杂业务语境、测试流程缺乏可控编排，导致其难以真正融入工程体系并规模化应用。

为解决上述问题，我们探索性的进行了智能测试平台 QAClaw的实践：以 Agent 作为统一入口与决策中枢，负责意图识别、任务拆解与流程规划；业务知识检索、测试用例生成、UI自动化执行等能力被封装为标准化 Skills，由 Agent 动态调度，从而实现测试流程的智能化与模块化闭环。

内容大纲：
1.Agent测试的机遇与挑战
1.1 传统测试的挑战
1.2 Agent带来的改变
2.QAClaw:智能测试实践
2.1 QAClaw整体架构
2.2 端到端全流程串联
2.3 全流程演示
3.关键技术实践
3.1 测试用例生成
3.1.1 业务知识库构建
3.1.2 业务知识图谱构建
3.1.3 测试用例生成
3.2 WebUI自动化实现
3.2.1 架构设计
3.2.2 核心流程剖析
3.2.3 技术难点攻坚
3.3 移动端UI自动化实现
3.3.1 架构设计
3.3.2 云机管理
3.3.3 效果展示
4.未来规划与展望

听众收益
架构范式与设计参考：跳出传统测试框架的底层束缚，掌握智能测试平台的方案。了解如何将冗长的测试生命周期解耦为标准化工具，并由单一智能体进行精准的编排、调度与状态管理。
前沿技术落地解法：掌握大模型赋能测试的两大关键技术实践：一是如何利用 RAG 技术打破大模型的“业务知识壁垒”；二是如何利用多模态大模型攻克传统 Web/移动端 UI 自动化测试中“控件识别易失效、维护成本高”的技术顽疾。
复杂场景下的工程约束与实践交流：
结合真实业务落地，探讨大模型在长链路测试中面临的局限性。针对 Agent 任务调度死循环、环境差异等边界问题，分享我们摸索出的工程化收敛与兜底机制

胡梦飞

快手研发 Agent 专家

快手研发效能中心用例管理平台负责人。负责用例管理平台的整体规划与研发落地，主导快手智能测试用例生成系统建设，推动 AI 用例生成率从 8% 提升至 60%，实现测试效能在业务场景中的规模化实践。加入快手前，曾先后任职于贝壳找房与美团，积累了丰富的大型互联网研发效能与质量平台建设经验。长期深耕智能化测试领域，持续探索 LLM、Agentic 架构在软件测试中的落地应用，致力于通过 AI 与工程方法推动测试提质增效。

待定

生成率从8%到60%：快手智能测试用例生成系统的四阶进化

议题背景：
随着大模型能力的快速突破，软件测试领域正迎来从"人工编写用例"向"智能体自主生成"的范式变革。传统用例编写面临效率瓶颈高、覆盖不全、与业务上下文脱节等长期痛点，早期 AI 尝试生成率仅有 8%，远未达到可用标准。
本次演讲将分享快手效能研发平台在智能测试用例生成领域的系统性探索：从基础 Prompt 工程到 RAG 知识增强，再到 Agentic 架构的引入，历经四个演进阶段，将有效生成率提升至 60%。我们将深度还原每个阶段的技术选型、工程实践与踩坑经历，以及如何构建数据闭环推动 AI 能力持续进化。

内容大纲：
1. 行业背景与痛点洞察：传统用例管理的效率瓶颈与 AI 时代的范式转变
2. 智能用例生成四阶进化：RAG 增强、Agentic 架构与数据飞轮的完整演进路径
3. 多业务线规模化实践：推广策略、质量度量体系与量化收益
4. 未来展望：从用例生成到测试全链路智能化的下一步

听众收益：
1. 了解快手智能测试用例生成的四阶进化路径，获取从 RAG 增强到 Agentic 架构的完整技术选型逻辑与踩坑经验，可直接借鉴落地。
2. 掌握 AI 测试工具从 Demo 到生产的规模化推广策略，了解各阶段真实效果演进数据与关键转折点，获取可扩散借鉴的工程实践经验。

宋东辉

字节跳动测试开发工程师

字节跳动Data的测试开发工程师，目前负责质量团队的AI效率方向工作。
浙江大学硕士毕业之后，入职支付宝、参与蚂蚁端稳定性 Sapienz 项目建设，数字内容质量治理黑鸟项目核心成员。2021年加入网易云音乐，云音乐大数据质量建设和数据治理负责人，发起并牵头多方共建 DataOps 项目、大数据智能监控系统等。

待定

Giraffe-API：利用豆包&ML重新定义 API 场景用例生成

议题简介：
Giraffe-API 依托 LLM&ML 技术重新定义 API 场景用例生成，解决传统接口测试效率低、覆盖不全、维护成本高的痛点。它支持无侵入录制 QA 日常测试操作，深度清理 Har 文件，可智能过滤 85% 以上无效接口，以 90% 置信度精准保留核心接口，自动构建场景链路、传参关系与基本的断言条件。搭配拖拉拽式交互界面，用户能轻松管理用例，上手仅需 1-2 小时。

议题背景：
随着 Web 应用的复杂化与迭代速度的加快，接口测试作为保障应用稳定性的关键环节，其重要性日益凸显。接口测试需覆盖各类业务场景，而场景用例的设计与编写是接口测试的核心工作。
现有技术中，接口场景用例主要依赖测试人员手动编写：测试人员需先梳理接口文档，明确各接口的功能、参数、响应格式，再基于业务逻辑分析接口间的依赖关系与参数传递规则，最终编写包含接口调用序列、参数配置、断言条件的场景用例。然而，该方式存在诸多缺陷：
1. 效率低下：复杂业务场景涉及大量接口，手动梳理依赖关系与参数传递需耗费大量时间，难以适应快速迭代的开发节奏；
2. 准确性不足：接口依赖关系与参数传递逻辑复杂，依赖测试人员的业务经验与细心程度，易出现遗漏或错误；
3. 场景覆盖不全面：手动编写难以复现用户实际操作中的复杂场景，部分边缘场景或时序相关场景易被忽略；
4. 维护成本高：当接口发生变更（如参数调整、功能修改）时，需手动更新所有相关场景用例，维护成本高。
技术方案简介：
通过用户操作录制与网络请求捕获模块获取用户交互行为及对应的 HAR 格式网络请求数据，经预处理筛选有效接口信息后，基于时序特征与业务语义构建接口时间窗；通过种子泛化思想完成已知及未知接口的画像构建与作用识别，结合时间窗时序约束与画像语义支撑，构建接口间时序 - 业务双维度依赖关系及多维度参数传递关系；最终通过大模型泛化生成与机器学习优化，输出包含全局参数、参数传递规则、断言条件及接口调用序列的结构化场景用例。
技术沉淀：相关内容申请专利一篇
项目落地：在Data的多个业务线落地（dorado、GMP、CDP、营销Agent、bytehouse、libra、byteIO等）

内容大纲：
1. 背景
1.1 API链路测试的痛点
2. 方案调研
2.1 业界现状
2.2 内部现状
2.3 Giraffe-API的机会
3. 技术方案
3.1 理论模型
3.2 整体框架
3.3 生产端-UI Recorder
3.4 平台端-多维接口画像
3.5 平台端-时间窗
3.6 平台端-接口依赖图
3.7 平台端-断言
3.8 执行端-报告
3.9 番外篇-RAG
4. 落地效果
5. 展望-场景用例自生成

听众收益
1. 掌握 “LLM+ML + 时序建模” 跨领域融合的创新方案，可直接复用时间窗模型、多维度接口画像、依赖关系智能构建等核心技术框架，解决复杂业务场景下 API 用例生成效率低、覆盖不全的痛点；
2. 获取大规模业务落地的工程化实践指南，包括浏览器录制插件适配、多类型接口（流式 / 心跳 / 重复接口）处理、跨业务线兼容等关键踩坑经验，规避从技术原型到生产环境的落地风险；
3. 洞察测试领域技术演进方向，了解代码变更感知、失败根因追溯等前沿场景的技术实现思路，为测试效能提升与智能化升级提供可落地的参考路径。

路昆

淘天集团测试开发工程师

6年深耕阿里巴巴质量与效能领域，先后任职于技术风险部、数字供应链事业部、自营技术部、供应链产品技术部，从传统测试开发一路走向AI测试架构。曾担任供应链计划计算、出入库物流等核心链路质量负责人，主导双十一全链路可售专项PM & PTM，统筹大促协同风险把控与全链路验证。现任自营技术、供应链产品技术部AI测试架构负责人，主导ATC全端AI测试平台从0到1的建设与无人化业务测试规模化落地，构建覆盖测试全生命周期的多智能体协同系统，已在10+核心业务域实现AI辅助交付近千个项目，无人化验证数百个场景，多个业务场景达成需求直达产品的全流程无人化交付。

待定

ATC 阿里巴巴淘天全端智能质量平台，助力无人化业务交付

议题背景：
在AI Coding时代，代码生产力呈指数级增长，但传统自动化测试已成为交付瓶颈，其脚本维护成本高、业务理解能力弱、跨系统验证难的问题愈发凸显。此时，仅仅在传统框架上修补已无法满足需求。阿里巴巴ATC的解法是，彻底摒弃修补式的思路，构建一个全新的AI测试范式。

我们的思考：构建一个基于多智能体架构的测试智能体生态。该生态以一个测试大脑 (Test Brain) 作为中枢，负责统一规划、决策与调度，指挥不同领域的专业智能体协同测试，包括WEB、移动端、接口、数据、用例生成等横向专业智能体，并配合模块、领域等垂直场景细分的专业智能体。这种“群体智能”模式，旨在系统性地解决AI在工业级测试中面临的“不稳定性”与“认知局限”两大核心痛点，最终的目标是打通从需求直达产品的全链路无人化交付场景。

内容大纲：

1. 构想与挑战：迈向无人化测试的必经之路
1.1 传统自动化的困境与AI测试的“信任危机”
1.1.1 自动化脚本的脆弱性与高昂维护成本
1.1.2 单一AI模型在复杂任务面前的局限性与“幻觉”问题
1.2 我们的解法：从“单点智能”到“多智能体协同”的架构跃迁
1.2.1 提出构建AI测试产品矩阵的构想
1.2.2 定义“测试大脑”作为协同指挥中心的核心角色
2. 核心架构：阿里巴巴ATC多智能体测试矩阵
2.1 测试大脑（The Test Brain）：决策与指挥中心
2.1.1 负责任务的理解、规划、拆解
2.1.2 调度不同智能体执行，并管理它们之间的信息与数据流
2.2 专业智能体分工：WEB、移动端、用例生成、数据智能体的能力深潜
2.2.1 用例生成智能体：深度理解需求，结合领域知识生成高覆盖率用例
2.2.2 WEB/移动端智能体：负责界面操作的精准执行与结果校验
2.2.3 数据智能体：打通底层数据系统，提供动态、精准的数据构造与查询能力
2.2.4 领域纵向专业智能体：解决领域单场景的问题。
3. 关键技术实践与突破
3.1 攻克信任：AI对抗与确定性回放引擎，实现结果的绝对可靠
3.2 挑战复杂：跨系统、跨终端长链路的无人化执行
3.3 提升质量：从“生成-分析-修复”到“自主进化”的学习闭环
3.4 算法与工程结合：在规则密集、逻辑严谨的场景中规避大模型幻觉
4. 实践成果与量化收益
4.1 测试效率显著提效，平均为每个项目节省0.5-3人日测试时长，AI辅助交付近千个项目，无人化托管支撑数十个项目发布上线。
4.2 质量跃升：平均AI用例采纳率达80%以上，无人化托管场景用例采纳率达95%+，主动发现数百个高危风险与潜在缺陷。
4.3 从 MVP 到规模化：支撑大规模项目，实现复杂核心链路的无人化托管测试，直接业务交付。

听众收益
1. 可借鉴的架构范式：了解如何设计和构建一个“多智能体协同”的AI测试系统，解决复杂、端到端测试任务。
2. 解决AI信任危机的工程方案：获得解决AI测试幻觉和不可靠问题的具体方法。
3. 构建AI系统自学习闭环的思路：理解如何通过“人机协同”和“经验知识库”的设计，让AI测试系统具备自我进化和成长的能力。
4. AI与传统算法结合的最佳实践：学习到在逻辑密集型场景（如金融、风控）中，如何将大模型的理解能力与传统确定性算法（如决策树遍历、正交测试）的严谨性结合，以达到远超单一AI模型的准确度和覆盖度。

鲍红磊

微博高级测试开发工程师

从业10年以上，深耕移动端测试平台建设与智能化测试方向。长期主导微博测试基础设施的研发与演进，在移动端UI自动化测试领域积累了丰富的工程实践经验。

近年来持续探索多模态大模型在移动端测试场景的落地应用，从零构建了基于多模态大模型与多Agent架构的移动端UI智能化测试平台，覆盖自然语言用例编写、Agent自主执行、多模态微调数据录制与模型微调全链路，已在微博多条业务线落地推广，实现用例编写效率提升6倍，维护成本降低66%。

曾两度登上QECon全球软件质量&效能大会舞台，2024年深圳站以《鸿蒙端UI自动测试开源框架——HDriver》荣获"年度明星讲师"称号，是兼具技术深度与实战经验的一线工程实践者。

待定

从0到1：基于多模态大模型与多Agent架构的移动端UI智能化

测试平台实战

议题背景：
演讲背景与痛点
传统移动端UI自动化测试（Python+Appium）面临三大核心困境：
- 泛化能力差：UI稍有变动即大量脚本失效，只能用于需求稳定期的回归测试；
- 维护成本高：每次UI变更需人工分析元素树、修改定位规则，平均耗时15分钟/Case；
- 门槛高：用例开发需掌握编程技能，普通测试人员难以参与。

工程落地路径（可复制）
分享从0到1的完整推广路径：
1. 能力摸底：邀请一线测试人员试跑现有Case，筛选可稳定执行的Case；
2. 分批落地：稳定Case纳入DailyRun，失败Case分批录制微调数据；
3. 微调迭代：微调完成后追加进批量执行池，形成持续扩大的自动化覆盖；
4. 多业务线复制：沿同一路径向新业务线推广，维护成本降低66%。

核心踩坑与优化经验（重点内容）
- 早期单Agent架构无法处理非UI操作（日志校验、数据准备），倒逼V2多Agent架构升级；
- 大模型输出不确定性导致"调试完成"标准缺失，如何用工程手段建立可量化的评估机制；
- 人工构造微调数据质量差、效率低，如何通过可视化录制工具实现质量与效率的双重突破；
- 开源模型UI识别能力不足时，优先从工程层面（并行投票、ReAct管理层）提升成功率，而非一味依赖微调；
- 长流程用例上下文爆炸问题，三层Agent拆解如何实现上下文的逐级压缩。

内容大纲：
核心方案与架构亮点
本次分享将完整拆解一套“从零构建、已在生产环境稳定运行”的移动端UI智能化测试平台，系统包含四大核心模块：
1. 自然语言用例调试工具（命令行IDE）
- 无需编程基础，像写文档一样描述用户操作；
- 命令行实时输出执行日志，同步展示手机端UI操作过程；
- 用例编写耗时从60分钟/Case压缩至10分钟/Case，效率提升6倍；
- 引入"容忍度评估机制"（批量执行N次，以通过率判定用例是否达到可批量执行标准），解决大模型输出不确定性带来的调试标准难题。

2. 三层多Agent执行系统（V2架构）
- 工具调用Agent（Qwen3.5-27B）：作为系统入口，自动识别日志校验、数据准备、UI操作等不同类型任务并分发；
- UI管理Agent（Qwen3.5-27B）：基于ReAct范式，驱动底层执行Agent在"推理-行动-观察"循环中完成测试步骤，相当于为多模态模型引入thinking模式；
- UI执行Agent（Qwen3-VL-8B）：专注UI理解与元素定位，通过并行投票择优策略将单步操作成功率从50%提升至接近100%；
- 三层拆解架构有效破解了长流程测试用例（30+步骤）的上下文长度限制问题。
3. 可视化多模态微调数据录制系统
- 解决人工构造微调数据费时费力（30分钟/条）的痛点；
- 可视化界面支持设备切换、任务描述编辑、操作录制（点击/双击/长按/滑动/输入）；
- 内嵌远程真机实时控制，操作体验与真机一致，数据制作时间从30分钟压缩至5分钟；
- 支持操作预览（截图上标记点击坐标、滑动轨迹），保障微调数据质量。
4. 可视化测试报告系统
- 双层报告结构：总览层（通过率、耗时、模块分布饼图、单Case性能点线图）+ 详情层（全部/成功/失败用例三维视图）；
- 每步操作均保留UI截图并标注操作位置（点击坐标、滑动轨迹），形成可追溯的执行铁证；
- 完整记录模型思考链与执行日志，支持高效Review与Debug。

听众收益：
一套可以直接拿来复制落地的系统实现方案，其中还包括了很多的菜坑和优化经验

黄晓晴

淘天集团高级测试开发工程师

目前主要负责用户营销场景的质量保障工作，负责用户营销业务AI资损专项，包含资损需求分类，AI智能打标，风险场景分析推荐，资损监控脚本生成，存量脚本有效性攻防等探索。22年毕业于北京大学，曾就职于腾讯公司

待定

AI 驱动的资损智能防控体系2.0建设

议题背景：
资损防控是测试保障的底线工程。面对业务复杂度攀升与风险场景快速演化，传统依赖人工经验的模式面临人工误判或漏判导致风险覆盖不全、布控效率低、大量监控脚本空跑或失效等瓶颈。我们基于LLM，系统构建AI驱动的资损防控2.0体系，通过多Agent协同分析、结构化失血模型沉淀、知识库动态保鲜、“攻击-验证”闭环及持续评测优化方式，落地四大核心能力：需求分类+智能打标（准确率86.82%）、风险场景推荐（召回率81.82%）、监控脚本生成（逻辑一致率100%，框架一致率80%）、存量脚本AI攻防验证（半年内主动暴露无效或冗余监控80个）。上线后，AI自动过滤80%非资损需求，布控效率提升3倍以上，显著提升防控精准性与体系健壮性。

内容大纲：
1. 项目背景：
1.1 资损布控背景：简述什么是资损布控，传统的人工资损布控流程是什么样的；
1.2 资损攻防背景：简述什么是资损攻防，传统的资损攻防流程是什么样的。
2. 当前困境与问题定义：
2.1 核心痛点：传统人工防控模式难以为继；
2.1.1 人工误判或漏判导致风险覆盖不全；
2.1.2 人工布控效率低，难以支撑高频迭代；
2.1.3 大量监控脚本空跑或失效，资源浪费严重。
2.2 转型契机：
2.2.1 推动资损防控智能化升级，从“被动响应”到“智能预测 + 主动攻防”。
3. 产品方案设计：
3.1 目标：实现资损防控体系的范式跃迁：
超越1.0“AI辅助工具”定位，构建端到端、自进化的智能防控体系：
实现四大转变：
单点提效 → 全链路自动化（覆盖需求打标、场景推荐、脚本生成、布控执行）；
被动响应 → 主动攻防（上线前智能预测 + 上线后故障智能注入验证）；
经验驱动 → 数据+知识双轮驱动（结构化失血模型 + 动态知识库）
静态评估 → 评测驱动的持续迭代（通过黄金数据集、Badcase归因构建可量化、可迭代的评测闭环）
落地四大场景：
需求AI智能分类+打标
资损场景AI分析推荐
资损监控脚本AI生成
存量脚本AI攻防验证
3.2 产品流程设计：构建“预测-执行-验证-进化”闭环
3.2.1 主流程：
变更触发 → 多Agent协同分析 → AI自动打标/放行 → 脚本自动生成 → 人机协同 → 一键布控
3.2.2 三大闭环机制：
知识进化闭环：事件沉淀 → 结构化模型 → agent定向优化 → 覆盖率提升
攻防验证闭环：故障注入 → 告警校验 → 自动清理失效脚本
评测反馈闭环：黄金数据集 + Badcase归因 → Agent定向优化
4. 技术实现细节
4.1 技术实现1：多Agent协同架构：破解复杂业务分析瓶颈
问题：单Agent受上下文限制，复杂场景召回率低
方案：需求分类、资损分析、脚本生成、智能攻防4个垂直Agent协同合作
4.2 技术实现2：监控脚本AI生成：模板匹配 + 人工轻量调整
实现逻辑：根据一/二级分类生成脚本模板，输出可编辑框架。
设计取舍：采用“AI模板+人工完善”而非全自动，兼顾灵活性与业务复杂性
4.3 技术实现3：动态知识库“保鲜”机制
实现逻辑：自动拉取线上事件、布控实例、研判案例，MD5校验触发向量库自动重建
价值：确保AI分析始终基于最新业务状态
4.4 技术实现4：首创AI攻防验证闭环
实现逻辑：AI解析监控逻辑 → 自动生成攻击SQL，搭建可视化攻防操作台，支持定期巡检执行与结果追踪
价值：让资损脚本监控真正“有效”
4.5 技术实现5：源信息融合探索：引入代码变更分析，弥补需求文档缺失技术细节的短板
挑战：迭代类变更缺乏完整调用链上下文，精确率承压
策略：结合CR Context构建“应用-失血模型”映射，做逻辑“与/或”融合
4.6 技术实现6：结构化知识资产沉淀：从规则到“失血模型模板库”
创新方法：构建二维结构化模板（横向聚合共性风险，纵向细化业务实现），覆盖四大类父场景 × 多级子场景
价值：为Prompt工程提供高复用知识底座，避免重复建设
4.7 技术实现7：基于用例特性树的Prompt工程范式升级
旧方式：基于静态规则匹配，核对点不精准
新方法：LLM沿“功能基线树 → 资损特性树”路径推理，聚焦本次变更影响点
价值：核对点标准化，与测试打标标准高度对齐，可直接复用
5. 评测体系与量化效果
分层评测策略：
任务执行成功漏斗分析：
需求一/二级分类准确率
资损分析模块打标/推荐场景效果
脚本生成效果
攻防效果
关键数据表现：
需求过滤
用户反馈
持续优化机制
黄金数据集动态更新
Badcase自动回收与归因
建设可观测评测大盘
6. 总结和未来展望
6.1 资损防控流程优化
6.2 资损打标能力持续探索
6.3 资损风险推荐精细化管理
6.4 监控脚本“智能”生成
6.5 资损攻防能力完善

听众收益：
针对电商领域质量保障、质量管理同学，该分享可以提供高风险资损业务场景下的解决思路，并通过分享中的实际问题，规避必然存在的坑，提升复用效率

仲思宇

58同城测试平台研发部负责人

负责 58 本地生活方向测试工具体系规划与架构设计，拥有三十多项测试工具发明专利。深耕客户端与服务端自动化测试多年，擅长业务质量体系规划及技术赋能落地，丰富的测试平台建设与效能提升经验。专注领域：质量体系建设、AI 测试体系建设。

待定

基于业务地图的轻量化 AI Agent 智能化测试实践

议题背景：
围绕业务流程视角下的移动端 AI 测试困境展开，提出以业务流程管理为主线，联动 AI Agent 决策调度能力与 Skills 原子化执行能力的协同架构。核心落地模式为单流程驱动多平台执行，以统一业务流程为核心，无需重复定义流程与脚本，由 AI Agent 协同模板适配 iOS、Android 等多平台，解决移动端 AI 测试适配难、效率低等痛点，实现轻量化全链路智能测试。

内容大纲：
1. 背景与挑战：业务流程视角下的移动端 AI 测试困境
1.1 传统UI测试现状：脚本分散、平台割裂（iOS/Android/鸿蒙各写一套）、业务变动带来大面积脚本维护。
1.2 痛点归纳：
1.3 目标画像：从“脚本驱动、多端割裂”走向“业务流程驱动、多端自动适配”。
2. 核心架构：业务流程管理 + AIAgent 与 Skills 协同体系
2.1 整体架构图
2.2 业务流程管理能力
2.3 AIAgent + Skills 协同机制
3. 实践落地：业务视角下的单流程驱动多平台执行
3.1 一套业务流程的建模
3.2 多平台适配机制
3.3 并行执行与统一结果展示
4. 总结与展望

听众收益：
以业务流程管理为核心，实现 AI Agent 与业务流程的深度融合，贴合实际业务测试需求；
突出业务流程与 Skills 体系的流程化沉淀价值，实现测试流程复用与 AI Agent 自主驱动的双重提效。

余亮

蚂蚁集团技术专家

浙江大学软件工程硕士，现任蚂蚁集团测试开发专家。拥有从移动端架构重构到测试开发专家的复合型技术背景，深耕质量保障与效能提升。
专注IoT-GUI-Agent技术架构与大模型在软件测试中的应用，构建大模型智能测试体系，实现从“脚本录制回放”向“智能意图理解与执行”的范式转变，有效解决了多模态交互场景下的复杂验证难题。同时构建覆盖手机端与各类IoT终端的全链路仿真测试平台，融合计算机视觉与语音识别技术，实现物理操作的数字抽象与仿真，大幅提升了复杂支付场景下的测试效率。此外，搭建的精准测试体系实现了从代码变更到用例筛选的智能化闭环，支撑了多项重大活动及项目的高质量交付。

待定

LLM+具身智能驱动的智能零售全链路评测体系突破

议题背景：
在智能穿戴支付与零售产品的发展中，实现高质量、高效率的全链路业务验证是构建产品竞争力的关键，也成为行业共同面临的挑战。目前常见的质量保障方法存在三方面局限：一是缺乏系统化方法批量构建贴近真实场景的高质量算法评测与训练数据集，制约了算法迭代与体验优化；二是验证多聚焦于硬件、算法等单点环节，缺乏对“用户交互-业务完成”端到端真实场景的模拟与覆盖；三是全链路测试仍大量依赖人工，操作主观性强、标准化不足，导致测试成本高、效率低且结果难以稳定复现。

内容大纲：
1. 案例简介
在智能穿戴与零售设备的爆发式增长背景下，我们构建了行业首个"具身智能+LLM"全栈自动化评测系统，突破传统质量保障模式无法应对多模态交互、物理空间操作、动态场景覆盖的三大困境。通过"具身模拟+AI合成"双引擎驱动，实现智能货柜、AI秤、AI眼镜等产品的端到端真实场景验证，成功支撑30+次关键版本迭代，推动识别准确率提升12%，问题修复周期缩短80%。
系统创新点体现在三个维度：
1）物理实体模拟：通过自主研发的机械臂（0.05mm定位精度）+灵巧手（16维力控感知）+声场复现阵列（±1dB频响精度），精准重构用户看/听/动三维交互行为
2）场景智能生成：基于大模型的场景泛化引擎，自动生成覆盖300+长尾场景的测试用例，破解AI眼镜的支付误触发、货柜动态拿取等核心痛点
3）闭环验证体系：构建从传感器数据注入→物理动作执行→多模态结果判定的完整验证链路，实现"单日千次"级压力测试能力
目前系统已形成可跨行业复用的具身智能质量保障范式，成功迁移至智能手表、智能座舱等具备人机交互领域的测试场景。
2. 关键挑战：多模态时代的质量保障破局
面对智能设备"感知-决策-执行"的全新交互范式，传统质量体系遭遇三大断点：
传统方案瓶颈 / 具身智能解决方案/提效指标
单点验证盲区：硬件/算法/场景割裂测试，无法捕获端到端交互缺陷/全链路仿真：机械臂模拟手势轨迹，人工嘴复现语音频谱，实现真实物理交互链路的数字孪生/缺陷捕获率提升65%
场景覆盖不足：人工构造场景成本高、周期长，长尾场景覆盖率＜40% / 动态场景生成：基于GPT-4生成测试用例，结合强化学习优化动作序列，覆盖率达92% / 场景构建效率提升20倍

结果判定失真：人工判读易受主观影响，误报率＞30% / 多模态判决引擎：融合视觉/语音/传感器时序数据，构建多层神经网络判决模型 / 误报率降至5%
3. 技术架构：三位一体的智能验证体系
架构图示意：感知层（多模态传感器阵列）-决策层（具身大模型）-执行层（机械臂/灵巧手/人工嘴）
3.1 智能感知层
3.1.1 视觉定位：YOLO V8+RGBD相机构建毫米级空间感知（±2mm定位精度）
3.1.2 声场重构：128通道麦克风阵列实现声源定位（±3°方位角误差）
3.1.3 触觉反馈：16维力控传感器实现自适应抓握（0.1N力度分辨率）
3.2 决策中枢层
3.2.1 场景生成引擎：基于LLM的测试用例自动生成，支持自然语言描述→机器可执行代码转化
3.2.2 动态规划算法：结合Q-learning优化机械臂运动轨迹，能耗降低30%
3.2.3 异常检测模型：LSTM网络实时分析时序数据，提前10ms预测设备异常
3.3 精准执行层
3.3.1 机械臂集群：移动机器人+6轴协作机械臂+灵巧手，支持3m×3m空间全域覆盖
3.3.2 多模态交互箱：集成环境光照调节（50-10000lux）、背景噪声注入（0-90dB）
4. 创新实践：关键场景效能突破
4.1 场景一：高仿真语音交互验证
4.1.1 问题：收音+ASR+意图理解全链路验证困难，人工无法复现原始问题
4.1.2 方案：使用LLM+专业人工嘴，多维度泛化高仿真语料
4.1.3 成效：捕获7类边缘场景缺陷，误识别率从12%降至0.3%
4.2 场景二：智能货柜动态拿取验证
4.2.1 问题：商品位移导致识别失败，人工测试覆盖率不足
4.2.2 方案：LLM+灵巧手模拟12种拿取角度，每秒生成20组力学数据
4.2.3 成效：识别准确率从83%提升至98.5%
5. 行业价值：可复制的质量基建范式
5.1 技术标准化
制定5项机械臂操作规范、3类声学测试标准，形成行业首个《具身智能测试白皮书》
5.2 商业落地路径
【阶段】【应用领域】【客户价值】
【阶段】1.0 【应用领域】消费电子【客户价值】硬件研发验证周期缩短50%
【阶段】2.0 【应用领域】汽车电子【客户价值】智能座舱测试成本降低70%
【阶段】3.0 【应用领域】工业检测【客户价值】缺陷漏检率下降至0.01%
6. 未来演进：构建自治化质量大脑
6.1 认知增强：接入多模态大模型，实现测试用例自主进化
6.2 弹性扩展：云端调度多设备集群，支持并发测试
6.3 自愈闭环：基于数字孪生的实时调参，达成"测试即修复"目标

听众收益：
1. 掌握端到端物理交互验证的系统方法，提升缺陷捕获能力
具体举措：通过“机械臂+灵巧手+声场复现”构建物理实体模拟层，实现用户“看/听/动”三维交互行为的全链路仿真。
可扩散经验：适用于任何具备物理交互的智能设备（如智能座舱、服务机器人、工业终端），将原本割裂的硬件、算法、场景测试统一为闭环验证。
2. 学习如何用大模型驱动场景生成，破解长尾测试覆盖率难题
具体举措：基于GPT-4构建场景泛化引擎，将自然语言描述自动转化为可执行测试用例，并结合强化学习优化动作序列。
可扩散经验：可复制到AIoT、智能家居、AR/VR等领域，解决人工构造场景成本高、周期长、覆盖不足的共性问题。
3. 获得多模态判决引擎的构建范式，实现高精度自动化判读
具体举措：融合视觉（YOLOv8+RGBD）、语音（128通道麦克风阵列）、传感器时序数据（LSTM异常检测），构建多层神经网络判决模型。
可扩散经验：可迁移至任何需要多模态结果判定的测试场景（如智能座舱人机交互、工业视觉检测），大幅降低人工判读的主观偏差。
4. 获取具身智能测试体系的标准化路径与跨行业复用经验
具体举措：形成机械臂操作规范、声学测试标准、《具身智能测试白皮书》，并在消费电子、汽车电子、工业检测三大领域完成落地验证。
可扩散经验：为企业建立可复用的具身智能质量基建提供清晰阶段路径（1.0→2.0→3.0），避免重复造轮子。
5. 理解“单日千次级”压力测试的实现方式，加速关键版本迭代
具体举措：构建从传感器数据注入→物理动作执行→多模态结果判定的完整闭环验证链路，实现自动化、高并发、可复现的压力测试。
可扩散经验：适用于高频迭代的智能设备研发团队，显著缩短问题修复周期，提升版本发布质量