专场:Agent驱动的智能化测试 
软件产品迭代提速、架构与业务复杂度攀升,传统测试已难以适配需求,AI Agent正推动测试从脚本自动化迈向自主决策的智能化新阶段,破解脚本维护难、缺陷定位滞后等痛点,也带来技术落地与能力升级的新命题。本次专场聚焦Agent驱动的智能化测试,探讨其如何重构质量保障流程,解析核心价值与实践路径,梳理测试人员转型方向,汇聚众多一线实践者在此交流经验、探索智能测试新范式。
专场出品人:李晓蕾 
字节跳动  质量智能化专家
互联网质量技术领域方向10年+的实战经验,曾在百度、滴滴就职,主要负责调用链路/用户级链路异常检测、客服质检等方向,当前在字节质量技术负责质量智能方面的能力深耕。
王一勃
58同城 AI 应用工程师
58同城AI应用研发工程师,拥有多年一线研发与质量保障经验,拥有多项AI测试发明专利。曾专注于AI代码辅助工具的研发,深入探究AI技术的实现细节与潜在风险。目前致力于将AI技术与软件测试深度融合,主导构建智能测试解决方案,通过大模型与自动化技术构建新一代智能测试体系,为研发效能的全面提升提供核心支持。
待定
待定
基于自然语言驱动的 Agent 智能测试实践
议题背景:
随着大模型技术的演进,软件测试正经历从“脚本驱动”向“自然语言驱动”的范式跃迁。然而,传统测试流程链路割裂、自动化维护成本高昂;而直接引入大模型,又面临业务上下文缺失、执行黑盒等落地痛点。
为此我们探索性开发了智能测试平台QAClaw。Agent作为统一入口与超级大脑,负责意图识别、复杂任务拆解、任务规划与结果反思;而用例生成、数据构造、自动化执行等测试能力,被封装为标准Skills供Agent动态调度。
在核心技术上,我们结合RAG解决了业务语境缺失问题,并引入多模态大模型攻克了UI自动化控件识别的稳定性难题。

内容大纲:
1. Agent测试的机遇与挑战
    1.1 大模型驱动的软件测试新范式
          1.1.1 从脚本驱动到智能驱动
          1.1.2 自然语言成为新的测试入口
          1.1.3 测试工程师角色的变化
    1.2 传统测试流程的核心痛点
          1.2.1 测试流程割裂,链路长
          1.2.2 用例与需求理解存在偏差
          1.2.3 自动化测试维护成本高
    1.3 Agent测试落地面临的关键挑战
         1.3.1 大模型缺乏业务上下文
         1.3.2 测试流程缺乏统一编排
         1.3.3 自动化执行稳定性问题
2. QAClaw:Agent驱动的智能测试平台
    2.1 QAClaw实践
          2.1.1 QAClaw架构设计
          2.1.2 自然语言驱动的测试交互模式
          2.1.3 测试流程的自动化编排
    2.2 Agent:智能测试的大脑
          2.2.1 意图识别:理解用户测试需求
          2.2.2 任务规划:拆解复杂测试流程
          2.2.3 Skills调用:能力工具化
          2.2.4 执行反思:基于结果的自我修正
    2.3 Agent Skills:测试能力工具化
          2.3.1 需求分析与优化
          2.3.2 测试用例智能生成
          2.3.3 测试数据自动生成
          2.3.4 自动化测试执行
          2.3.5 Bug自动提单
3. 关键技术实现
    3.1 测试流程的 Agent 编排机制
          3.1.1 测试任务自动拆解
          3.1.2 多Skills协同执行
          3.1.3 多轮对话补全测试信息
    3.2 AI理解业务需求的关键技术
          3.2.1 业务知识库构建
          3.2.2 需求语义理解增强
          3.2.3 需求与测试用例映射
    3.3 自动化执行稳定性优化
          3.3.1 Web自动化多模态识别
          3.3.2 移动端云机执行架构
          3.3.3 自动化执行失败重试机制
    3.4 实践中的关键踩坑
          3.4.1 大模型执行不稳定问题
          3.4.2 自动化执行环境差异问题
          3.4.3 Agent任务规划过度复杂问题
4. 未来规划
    4.1 测试场景进一步扩展
    4.2 丰富的测试工具集成
    4.3 构建统一智能测试平台

听众收益
架构范式与设计参考:跳出传统测试框架的底层束缚,掌握智能测试平台的方案。了解如何将冗长的测试生命周期解耦为标准化工具,并由单一智能体进行精准的编排、调度与状态管理。
前沿技术落地解法:掌握大模型赋能测试的两大关键技术实践:一是如何利用 RAG 技术打破大模型的“业务知识壁垒”;二是如何利用多模态大模型攻克传统 Web/移动端 UI 自动化测试中“控件识别易失效、维护成本高”的技术顽疾。
复杂场景下的工程约束与实践交流:
结合真实业务落地,探讨大模型在长链路测试中面临的局限性。针对 Agent 任务调度死循环、环境差异等边界问题,分享我们摸索出的工程化收敛与兜底机制
路昆
淘天集团 测试开发专家
.....
待定
待定
ATC 阿里巴巴淘天全端智能质量平台,助力无人化业务交付
议题背景:
在AI Coding时代,代码生产力呈指数级增长,但传统自动化测试已成为交付瓶颈,其脚本维护成本高、业务理解能力弱、跨系统验证难的问题愈发凸显。此时,仅仅在传统框架上修补已无法满足需求。阿里巴巴ATC的解法是,彻底摒弃修补式的思路,构建一个全新的AI测试范式。

我们的思考:构建一个基于多智能体架构的测试智能体生态。该生态以一个测试大脑 (Test Brain) 作为中枢,负责统一规划、决策与调度,指挥不同领域的专业智能体协同测试,包括WEB、移动端、接口、数据、用例生成等横向专业智能体,并配合模块、领域等垂直场景细分的专业智能体。这种“群体智能”模式,旨在系统性地解决AI在工业级测试中面临的“不稳定性”与“认知局限”两大核心痛点,最终的目标是打通从需求直达产品的全链路无人化交付场景。

内容大纲:
1. 构想与挑战:迈向无人化测试的必经之路
    1.1 传统自动化的困境与AI测试的“信任危机”
           1.1.1 自动化脚本的脆弱性与高昂维护成本
           1.1.2 单一AI模型在复杂任务面前的局限性与“幻觉”问题
    1.2 我们的解法:从“单点智能”到“多智能体协同”的架构跃迁
           1.2.1 提出构建AI测试产品矩阵的构想
           1.2.2 定义“测试大脑”作为协同指挥中心的核心角色
2. 核心架构:阿里巴巴ATC多智能体测试矩阵
    2.1 测试大脑(The Test Brain):决策与指挥中心
           2.1.1 负责任务的理解、规划、拆解
           2.1.2 调度不同智能体执行,并管理它们之间的信息与数据流
    2.2 专业智能体分工:WEB、移动端、用例生成、数据智能体的能力深潜
           2.2.1 用例生成智能体:深度理解需求,结合领域知识生成高覆盖率用例
           2.2.2 WEB/移动端智能体:负责界面操作的精准执行与结果校验
           2.2.3 数据智能体:打通底层数据系统,提供动态、精准的数据构造与查询能力
           2.2.4 领域纵向专业智能体:解决领域单场景的问题。
3. 关键技术实践与突破
    3.1 攻克信任:AI对抗与确定性回放引擎,实现结果的绝对可靠
    3.2 挑战复杂:跨系统、跨终端长链路的无人化执行
    3.3 提升质量:从“生成-分析-修复”到“自主进化”的学习闭环
    3.4 算法与工程结合:在规则密集、逻辑严谨的场景中规避大模型幻觉
4. 实践成果与量化收益
    4.1 效率显著提效,平均为每个项目节0.5-2人日,覆盖上千个项目,AI辅助交付近千个
    4.2 质量跃升:AI用例采纳率达80%以上,主动发现数百个高危风险与潜在缺陷
    4.3 从MVP到规模化:支撑大规模项目,实现复杂核心链路无人化托管

听众收益
1. 可借鉴的架构范式:了解如何设计和构建一个“多智能体协同”的AI测试系统,解决复杂、端到端测试任务。
2. 解决AI信任危机的工程方案:获得解决AI测试幻觉和不可靠问题的具体方法。
3. 构建AI系统自学习闭环的思路:理解如何通过“人机协同”和“经验知识库”的设计,让AI测试系统具备自我进化和成长的能力。
4. AI与传统算法结合的最佳实践:学习到在逻辑密集型场景(如金融、风控)中,如何将大模型的理解能力与传统确定性算法(如决策树遍历、正交测试)的严谨性结合,以达到远超单一AI模型的准确度和覆盖度。  

宋东辉
字节跳动 测试开发工程师
字节跳动Data的测试开发工程师,目前负责质量团队的AI效率方向工作。
浙江大学硕士毕业之后,入职支付宝、参与蚂蚁端稳定性 Sapienz 项目建设,数字内容质量治理黑鸟项目核心成员。2021年加入网易云音乐,云音乐大数据质量建设和数据治理负责人,发起并牵头多方共建 DataOps 项目、大数据智能监控系统等。
待定
待定
Giraffe-API:利用豆包&ML重新定义 API 场景用例生成
议题简介:
Giraffe-API 依托 LLM&ML 技术重新定义 API 场景用例生成,解决传统接口测试效率低、覆盖不全、维护成本高的痛点。它支持无侵入录制 QA 日常测试操作,深度清理 Har 文件,可智能过滤 85% 以上无效接口,以 90% 置信度精准保留核心接口,自动构建场景链路、传参关系与基本的断言条件。搭配拖拉拽式交互界面,用户能轻松管理用例,上手仅需 1-2 小时。

议题背景:
随着 Web 应用的复杂化与迭代速度的加快,接口测试作为保障应用稳定性的关键环节,其重要性日益凸显。接口测试需覆盖各类业务场景,而场景用例的设计与编写是接口测试的核心工作。
现有技术中,接口场景用例主要依赖测试人员手动编写:测试人员需先梳理接口文档,明确各接口的功能、参数、响应格式,再基于业务逻辑分析接口间的依赖关系与参数传递规则,最终编写包含接口调用序列、参数配置、断言条件的场景用例。然而,该方式存在诸多缺陷:
1. 效率低下:复杂业务场景涉及大量接口,手动梳理依赖关系与参数传递需耗费大量时间,难以适应快速迭代的开发节奏;
2. 准确性不足:接口依赖关系与参数传递逻辑复杂,依赖测试人员的业务经验与细心程度,易出现遗漏或错误;
3. 场景覆盖不全面:手动编写难以复现用户实际操作中的复杂场景,部分边缘场景或时序相关场景易被忽略;
4. 维护成本高:当接口发生变更(如参数调整、功能修改)时,需手动更新所有相关场景用例,维护成本高。
技术方案简介:
通过用户操作录制与网络请求捕获模块获取用户交互行为及对应的 HAR 格式网络请求数据,经预处理筛选有效接口信息后,基于时序特征与业务语义构建接口时间窗;通过种子泛化思想完成已知及未知接口的画像构建与作用识别,结合时间窗时序约束与画像语义支撑,构建接口间时序 - 业务双维度依赖关系及多维度参数传递关系;最终通过大模型泛化生成与机器学习优化,输出包含全局参数、参数传递规则、断言条件及接口调用序列的结构化场景用例。
技术沉淀:相关内容申请专利一篇
项目落地:在Data的多个业务线落地(dorado、GMP、CDP、营销Agent、bytehouse、libra、byteIO等)

内容大纲:
1. 背景
    1.1 调研
    1.2 方案
2. web端api录制插件
基于浏览器内核的 UI Recorder 插件核心在于实现 “用户操作过程录制” 与 “网络请求 HAR 文件生成” 两大核心功能;支持流式接口,modheader等复杂case的录制;支持多角色、多页面录制
3. 构建API场景用例的时间窗模型
构建接口时间窗的核心目标是从无序的接口调用时序中,挖掘出具有业务语义闭环的时间区间,其优化需以 “时序连续性 + 业务语义一致性 + 接口类型适配性” 为三大核心原则,突破传统时间窗仅依赖时间戳划分、忽略接口类型特征的局限。整体的构建框架分为三层:
1)触发层:融合用户交互行为、接口调用密度、接口类型特征的多维度触发机制,替代单一的时间戳分割;
2)校准层:基于接口类型的语义特征,动态修正时间窗边界,剔除噪声接口对窗口完整性的干扰;
3)适配层:针对不同类型接口(重复、心跳、孤立)设计差异化的窗口合并 / 拆分策略,提升时间窗与业务场景的匹配度。
4. API场景的单接口的多维度智能画像
面向 HAR 文件中的接口调用全量数据,融合时序、语义、行为三维特征与分层分类逻辑,实现接口精准识别的多维度智能画像算法体系。
       时间窗维度:重复型、心跳型等
       功能维度:日志型、鉴权型、状态型、加载型等
5. API场景用例智能构建
    接口依赖关系的构建:
核心是通过 “时序约束定边界、语义支撑判关联、大模型泛化补未知、机器学习验精度”,实现依赖关系的全面性与准确性,突破传统仅依赖时序或规则的局限。
1)时间窗分层时序约束
基于时间窗划分结果,将接口划分为全局业务窗与局部操作窗,局部窗内接口默认具备时序依赖基础,跨窗接口需满足 “业务语义关联” 才判定为依赖,避免跨场景误判。时序约束为依赖关系提供 “硬边界”,确保依赖符合业务流程的时间逻辑。
2)接口画像语义关联过滤
结合接口画像的业务域、功能类型标签,对时序相邻接口进行语义校验。若前序接口为 “数据查询”、后序为 “数据提交” 且同属一个业务域,则强化依赖判定;若语义无关联且无参数传递,则排除依赖。接口画像为依赖关系提供 “软约束”,确保依赖具备业务合理性。
3)大模型泛化推理辅助
基于典型业务链路的种子样本,大模型通过泛化推理,推导未知接口的依赖关系。例如,大模型利用 “用户登录→权限校验→数据查询→提交操作” 的种子链路,泛化到同类未知业务流程,辅助判定接口间的潜在依赖,弥补纯规则对复杂场景的覆盖不足。
4)并行 / 串行关系区分
大模型结合接口调用的上下文信息,识别并行接口(无时序先后、无业务关联)与串行接口(时序递进、业务衔接)。并行接口间不构建依赖,仅与前序 / 后序非并行接口形成跨层依赖,确保依赖图谱层次清晰,贴合真实业务执行逻辑。
接口间参数传递关系:
参数传递关系的构建核心是实现 “前序接口输出→后序接口输入” 的精准映射,通过大模型解析参数语义、多维度匹配规则建立传递关系,再由机器学习验证有效性,避免参数误匹配与无效传递。
6. 工程化落地之路
7. 未来展望
    7.1 感知代码变更智能维护存量API用例!
    7.2 API用例的失败根因智能追溯

听众收益
1. 掌握 “LLM+ML + 时序建模” 跨领域融合的创新方案,可直接复用时间窗模型、多维度接口画像、依赖关系智能构建等核心技术框架,解决复杂业务场景下 API 用例生成效率低、覆盖不全的痛点;
2. 获取大规模业务落地的工程化实践指南,包括浏览器录制插件适配、多类型接口(流式 / 心跳 / 重复接口)处理、跨业务线兼容等关键踩坑经验,规避从技术原型到生产环境的落地风险;
3. 洞察测试领域技术演进方向,了解代码变更感知、失败根因追溯等前沿场景的技术实现思路,为测试效能提升与智能化升级提供可落地的参考路径。
查斌
淘天集团  高级测试开发工程师
淘天集团营销交易技术质量保障团队高级测试开发工程师,MobiusAI平台负责人。长期深耕AI驱动的质量工程领域,主导设计并落地了MobiusAI平台的核心技术体系,包括Skills模块化能力封装、Workflow可视化流程编排、知识图谱结构化增强及Agentic智能执行引擎,推动平台沉淀4K+工具、1.1K+智能体、1.3+工作流。平台在交易域测新、线上排查、舆情归类、回归测试等核心场景实现规模化应用。聚焦于将大模型能力与质量保障实践深度融合,在Agent架构设计、上下文工程、提示词工程等方向积累了丰富的工程实战与踩坑经验。曾多次受邀在行业技术大会上进行专题分享,在智能化测试与Agent平台工程领域具有较深积累。
待定
待定
MobiusAI:Agent 驱动测试智能化的平台工程实战
议题背景:
在大模型落地质量保障领域的过程中,业界普遍面临"单点能力强但体系化难"的困境——AI能写用例却跑不通全流程,能力散落在各处无法复用和沉淀,VL模型看得到页面却不认识业务组件,知识碎片化导致Agent表现不稳定。MobiusAI是淘天集团内部孵化的Agent驱动智能测试平台,围绕"如何让AI能力可复用、可编排、可规模化"这一核心问题,构建了Skills(模块化能力封装)→ Workflow(可视化流程编排)→ 知识图谱(结构化业务知识底座)→ AI XMind(用例智能生成与结构化执行)→ Manus(Agentic智能执行引擎)的五层技术体系。其中Skills通过"工具+工作流+引用文档+领域知识"的渐进式披露机制,实现了一次创建、多处复用的能力沉淀;知识图谱从解决GUI Agent"看不懂业务页面"的痛点出发,通过"实体-关系"三元组构建结构化知识底座,进而反哺用例生成、Agent工具链、线上排查等全平台场景;AI XMind创新性地将用例生成与执行分离——AI负责生成结构化用例,工程Agent负责逐步执行与校验;Manus通过Supervisor-SubAgent分层决策+分形执行,实现了"提测即测试"的全链路闭环。平台已沉淀4000+工具、1000+智能体、1000+工作流,不仅在效率维度实现工作流搭建提速80%+、排查时间缩短10倍,更在AI浓度维度实现了从"人驱动AI辅助"到"AI驱动人审核"的范式转变。

内容大纲:
1. 开场:AI驱动测试的理想与现实
1.1 行业现状剖析:从"ChatGPT写用例"到"Agent跑完全流程",为什么大多数团队停留在"单点尝鲜"阶段?用一个真实案例引入
1.2 核心挑战拆解:能力散落无法复用、测试流程固化在人脑和脚本中、知识碎片化导致Agent表现不稳定、长链路任务上下文编排难
1.3 MobiusAI的答案:Skills→Workflow→知识图谱→AI XMind→Manus 五层技术体系全景图,从"能力封装"到"流程编排"到"业务知识底座"到"用例生成与执行"到"智能执行"的完整链路
2. Skills:模块化能力封装与渐进式披露——规模化落地的基石
2.1 为什么传统"给Agent堆工具"的方式走不通?
- 实际数据:工具超过50个后,Agent选择准确率断崖式下降,Token消耗翻倍但任务完成率反而降低
- 核心矛盾:Agent需要"专家级深度"而非"百科全书式广度",但复杂业务场景又需要多种能力协同
 2.2 Skills核心设计:工具+工作流+引用文档+领域知识的四合一封装
- 拆解Skills六大组件的设计逻辑:工具(原子操作)、工作流(固定流程编排)、引用文档(SOP/排查指南/API文档)、技能说明(Markdown核心指令)、AI辅助生成、文档引用系统
- 类比:Skills就像"小领域专家的工具箱+操作手册",而不是"什么都会一点的万能助手"
2.3 渐进式披露机制——解决上下文Token消耗的核心武器
- 原理:Agent根据用户问题自动判断并加载相关技能,复杂知识外置到引用文档按需加载,而非一次性塞入全部能力
 - 效果对比:渐进式加载 vs 全量加载的Token消耗和准确率对比数据
2.4 五大设计原则实战经验(原则 / 设计要求 / 踩坑教训):
- 单一责任:每个Skill只解决一类问题。踩坑——早期"大而全"Skill导致加载冲突率高达30%
- 工具精简:推荐3-8个工具,避免超过15个。踩坑——工具超过15个后Agent"选择困难症"显著
- 描述精准:技能描述决定AI识别准确性。踩坑——描述模糊导致技能误触发率超过20%
- 场景闭环:能独立完成完整流程。踩坑——半吐子Skill导致Agent中途卡死
- 知识外置:复杂知识放到引用文档。踩坑——内联知识撑爆Skill描述的500字符上限
2.5 落地成效——Skills如何驱动平台规模化增长:
- 从"几个人用"到"全团队用"的关键转折:Skills使能力复用率从不到10%提升到规模化复用
- 平台级效果:通过Skills体系赋能,平台沉淀4000+工具、1000+智能体,新业务域接入从"两周开发"变为"配置化复用"
- 典型场景覆盖:自动化用例生成、代码变更影响分析、特定业务数据构造、线上问题智能排查、接口回归测试、领域知识问答
3. Workflow:可视化流程编排与AI助手——测试逻辑的确定性保障
3.1 为什么需要Workflow?散落在脚本、文档、人脑中的测试流程统一沉淀为可视化工作流,改一个流程不用改代码,拖拽配置即可生效
3.2 30+节点生态与关键节点深入解析(节点分类 / 典型节点 / 测试场景应用):
- Mobius服务:Agent应用、工具调用、日志查询、子工作流 → 复用平台已有能力,快速搭建测试流程
- 模型处理:LLM大模型、意图识别、IDEAs → 智能分析测试结果、生成测试报告
- 拓展能力:HTTP请求、Code代码执行、定时器 → 对接测试系统、实现自定义校验逻辑
- 逻辑控制:条件分支、循环、Break/Continue → 复杂测试分支和批量用例执行
- 知识库:知识检索、知识写入 → 测试用例库管理、问题知识沉淀
- GUI自动化:GUI Agent、移动端截图 → 端到端UI自动化测试
3.3 AI助手核心能力——自然语言搭建测试工作流:
- ReAct模式:"思考-行动-观察"智能循环 + 40+工具自动创建和配置各类节点
- 能力矩阵:理解需求→规划流程→创建节点→建立连接→验证修复→问题排查,全流程自动化
3.4 三层上下文压缩策略——复杂工作流搭建的关键技术:
- Layer 1: Micro Compact规则压缩(工具调用累积token>20K时触发)
- Layer 2: Tool Call语义转换(新消息保留工具语义,旧消息只保留文本)
- Layer 3: Intelligent Summary智能摘要(总token>80K时LLM生成结构化摘要)
3.5 踩坑实录与量化效果:
- Schema快照与状态回滚机制:每次用户发送消息前保存工作流状态,支持一键回滚
- 效率提升:简单工作流(3-5节点)从10-15分钟降至1-2分钟,提效80%+;复杂工作流(10+节点)从1-2小时降至10-20分钟,提效70%+
- 平台已沉淀1000+工作流,覆盖多个业务域
4. 知识图谱:从GUI Agent"看不懂页面"到结构化业务知识底座(6min)
4.1 起点:GUI Agent执行为什么频繁"卡住"?
- 真实困境:Manus的GUI自动化四Agent协作模型在执行交易测新流程时,Executor基于VL(视觉语言)模型理解页面,但VL模型没有训练过业务场景——它能识别"按钮""输入框",却不认识"商品SKU""星环路由""预售价格组件"等业务专有概念
- 第一次尝试——朴素RAG:将业务文档切片存入向量知识库,执行前召回相关文本片段注入上下文。结果:语义相似度匹配召回的片段碎片化严重,关联关系丢失,Agent拿到一堆零散描述依然"不知道该点哪里"
- 核心洞察:VL模型缺的不是"看到了什么"的视觉能力,而是"这个东西是什么、和什么有关系、操作它会发生什么"的结构化业务知识
4.2 解法:为什么选择知识图谱而非继续优化RAG?(朴素RAG vs 知识图谱对比)
- 数据形式:朴素RAG是非结构化文本片段 vs 知识图谱是结构化"实体-关系-实体"三元组
- 检索方式:朴素RAG是语义相似度匹配 vs 知识图谱是图遍历+关联推理(支持多跳推理)
- GUI场景效果:朴素RAG召回碎片缺乏上下文关联 vs 知识图谱提供"页面→包含→组件→触发→接口"完整链路
- 业务理解:朴素RAG是浅层语义匹配 vs 知识图谱提供实体间层级/因果/依赖关系
- 关键决策:针对GUI Agent场景的本体建模与用例生成场景完全不同——GUI场景建模核心是"页面-组件-操作-接口"的导航链路,用例场景建模核心是"需求-功能-规则-验证点"的覆盖关系
4.3 构建流程:本体建模→知识抽取→融合识别
- 本体建模(最核心):定义实体类型(页面、组件、接口、错误码等)和关系类型(包含、依赖、触发、导航到等),构建业务域的"知识骨架",建议5-15个实体类型
- 知识抽取:AI自动从文档中抽取实体/关系/属性,支持Qwen3 Max/Kimi K2.5/DeepSeek等多模型,异步任务执行
- 融合识别:同义实体合并("优惠券"="红包券")、上下位关系建立("营销工具"→"优惠券"),消除知识冗余与冲突
4.4 从GUI场景反哺全平台——知识图谱的溢出效应:
- 反哺用例生成:图谱提供的结构化业务关系,让AI生成用例时不再"凭空编造",而是基于真实的功能关联和业务规则生成,用例准确率从朴素RAG增强显著提升至69.23%
- 反哺Agent工具链:Agent在调用工具时,通过图谱理解工具与业务实体的对应关系,减少工具误选和参数错填
- 反哺线上排查:故障排查场景中,图谱提供"错误码→组件→依赖链路"的多跳推理能力,快速定位根因
- 一句话总结:知识图谱最初是为了解决GUI Agent"看不懂页面"的痛点而建,最终成为提升整个平台AI业务理解深度的知识底座
5. AI XMind:AI写用例×Agent跑执行——用例生成与自动化执行的分离架构
5.1 为什么不能让同一个AI既写用例又跑执行?
- 传统方案的困境:AI生成的用例是"自然语言描述",到执行时需要人工翻译成可操作步骤,信息传递断层严重
- 核心设计理念:"AI负责写用例(擅长理解和生成),工程Agent负责执行和校验(擅长确定性操作)",各司其职而非全能
5.2 结构化用例的执行协议设计——让AI输出"可被Agent直接执行"的用例:
- Case节点的层级执行协议(思维导图层级 → 可执行协议映射):
      第1级:Case节点(用例)
      第2级-首节点:数据准备 → 测试数据描述
      第2级-后续节点:执行步骤1、执行步骤2...
      第3级:执行操作(具体操作指令)
      第4级:预期结果标签
      第5级:预期结果内容(校验标准)
    - 关键设计决策:为什么选择思维导图层级映射而非JSON/YAML?——可视化可编辑可人工干预,AI生成后人可直接在导图上调整步骤再交给Agent执行  
5.3 节点级AI执行引擎——每个用例节点都是一个可独立执行的测试任务:
- 执行状态机:idle(待执行)→ running(执行中)→ completed/error
- 每个执行步骤自动拆分为"执行操作"和"预期结果校验"两阶段,Agent逐步执行并实时返回结果
- SSE流式通信:step_start → step_complete → complete/error,前端实时渲染执行进度
  5.4 批量执行与执行看板——从"一个个跑"到"批量并发执行":
- 执行看板按idle/running/completed/error四状态分Tab管理
- 支持批量选择节点并发执行,并发数可调(1-5),从低并发验证稳定性后逐步提高
 - 节点定位:点击看板中的节点名称,思维导图自动定位到对应节点,执行结果与用例结构一一对应
5.5 踩坑与实际效果:
- 踩坑:早期让AI同时生成用例和执行指令,导致用例质量和执行成功率双双下降——"分离"后两端效果都大幅提升
- 实际效果:AI生成的用例人工审查调整后,通过结构化协议直接交给Agent执行,用例从"写完到跑完"的周期从小时级缩短到分钟级
6. Manus:Agentic智能任务执行引擎——"提测即测试"的最后一公里(8min)
6.1 Supervisor-SubAgent分层决策架构:
- 决策主管(任务拆解/智能分派/结果验收)+ 执行引擎(多专家并行执行)的双节点循环
- 动态子图构建:工厂模式Agent运行时实例化,新增业务域只需配置JSON而不是写代码
6.2 四层提示词架构:基础指导(静态角色定义)→ 业务指导(动态场景匹配)→ 决策增强(运行时上下文注入)→ 能力扩展(按需激活专项能力),解决提示词与业务场景高度耦合的迁移成本问题
6.3 分形执行架构:将复杂子任务"外包"给拥有独立决策闭环的二级Supervisor,实现注意力隔离,避免琐碎逻辑污染主流程上下文
6.4 交易域测新全链路实战演示:
- 六阶段流程:需求澄清→流程规划→用例生成→数据构造→GUI自动化执行→二次对话,以一个真实交易域提测任务串起全流程
- GUI自动化四Agent协作模型:Manager(规划)/Executor(视觉执行)/ActionReflector(自我纠错)/Notetaker(信息提取)
- 双向中断与微调机制:AI主动中断等待人工补充 + 用户主动中断纠偏,保障人机协同的可控性
6.5 踩坑实录:上下文压缩"吃掉"URL和分支信息的真实案例、提示词层级冲突的优先级策略、业务域路由误判的排查经验
7. 平台落地成效与经验总结
7.1 维度一:工程提效——让测试活动更快更省(提效场景 / 数据 / 说明)
- 工作流搭建效率:提升80%+。AI助手自然语言搭建,3-5节点流程1-2分钟完成
- 线上问题排查:30-60min → 5min。知识图谱多跳推理+Agent自动化排查,提速10倍+
- 数据一致性校验:效率提升80%。Workflow自动化回归流水线替代人工逐条比对
- 用例从编写到执行:小时级 → 分钟级。AI XMind生成+Agent结构化执行,消除人工翻译
- 新业务域接入:两周 → 配置化。Skills模块化复用,新域不再从零开发
  
7.2 维度二:智能化提测执行——提高测试活动的AI浓度
- 从"人驱动、AI辅助"到"AI驱动、人审核"的范式转变:
· Manus实现"提测即测试"——收到提测自动触发用例生成→数据构造→路由绑定→GUI自动化执行全链路,人只需审核结果
· AI XMind实现"AI写用例、Agent跑执行"——AI专注于理解需求和生成高质量用例,工程Agent专注于确定性执行和校验,各司其职
· 知识图谱让Agent从"工具操作者"进化为"业务理解者"——从最初解决GUI Agent看不懂页面,到全平台AI具备结构化业务认知    
- AI浓度量化:
· 用例生成高准确率达69.23%,AI从"需要人逐条修改"到"人只需审核和微调"
· GUI自动化中准确率61.54%+高准确率15.38%,冒烟测试场景已实现无人值守
· 平台沉淀4000+工具、1000+智能体、1000+工作流,AI能力已渗透测试全生命周期
 
 7.3 三个核心经验教训:
- 能力模块化是规模化的前提(Skills)——没有Skills的能力封装,工具和Agent就是一堆散沙,无法复用无法规模化
- 确定性编排是可靠性的保障(Workflow)——纯自主决策的Agent不可靠,需要状态机兜底
- 知识结构化是AI浓度的天花板(知识图谱)——VL模型和朴素RAG的上限决定了Agent的业务理解上限,知识图谱打破了这个天花板
7.4 未来方向:基于代码变更的测试场景智能评估、智能数据推荐模型、多模态模型优化、混沌测试探索

听众收益:
1. 获得一套"从能力封装到智能执行"的完整Agent平台建设方法论:Skills模块化→Workflow编排→知识图谱业务知识底座→AI XMind用例生成与执行分离→Manus智能执行,五层体系可直接参考复制到自身团队的Agent平台建设中。特别是Skills的模块化能力封装思路和XMind"AI写用例、Agent跑执行"的分离架构,是很多团队在Agent落地中忽视但至关重要的环节。
2. 理解知识图谱如何从"解决一个问题"演进为"平台级知识底座":从GUI Agent看不懂业务页面这一具体痛点出发,揭示为什么朴素RAG走不通、知识图谱如何解决、以及如何将图谱能力溢出到用例生成(准确率提升至69.23%)、Agent工具链优化、线上排查等全平台场景。这条从痛点到底座的演进路径,对任何正在建设AI测试平台的团队都有直接参考价值。
3. 收获"提效"和"AI浓度"双维度的落地成效评估框架:不只看"快了多少"的效率指标,更看到"AI在测试活动中的参与深度"如何从辅助工具升级为核心驱动力——从"人驱动AI辅助"到"AI驱动人审核"的范式转变,以及4000+工具、1000+智能体、1000+工作流背后的规模化运营路径和踩坑经验。
仲思宇
58同城 测试平台研发部负责人
负责 58 本地生活方向测试工具体系规划与架构设计,拥有三十多项测试工具发明专利。深耕客户端与服务端自动化测试多年,擅长业务质量体系规划及技术赋能落地,丰富的测试平台建设与效能提升经验。专注领域:质量体系建设、AI 测试体系建设。
待定
待定
基于业务地图的轻量化 AI Agent 智能化测试实践
议题背景:
围绕业务流程视角下的移动端 AI 测试困境展开,提出以业务流程管理为主线,联动 AI Agent 决策调度能力与 Skills 原子化执行能力的协同架构。核心落地模式为单流程驱动多平台执行,以统一业务流程为核心,无需重复定义流程与脚本,由 AI Agent 协同模板适配 iOS、Android 等多平台,解决移动端 AI 测试适配难、效率低等痛点,实现轻量化全链路智能测试。

内容大纲:
1. 背景与挑战:业务流程视角下的移动端 AI 测试困境
    1.1 传统UI测试现状:脚本分散、平台割裂(iOS/Android/鸿蒙各写一套)、业务变动带来大面积脚本维护。
    1.2 痛点归纳:
    1.3 目标画像:从“脚本驱动、多端割裂”走向“业务流程驱动、多端自动适配”。
2. 核心架构:业务流程管理 + AIAgent 与 Skills 协同体系
    2.1 整体架构图
    2.2 业务流程管理能力
    2.3 AIAgent + Skills 协同机制
3. 实践落地:业务视角下的单流程驱动多平台执行
    3.1 一套业务流程的建模
    3.2 多平台适配机制
    3.3 并行执行与统一结果展示
4. 总结与展望

听众收益:
以业务流程管理为核心,实现 AI Agent 与业务流程的深度融合,贴合实际业务测试需求;
突出业务流程与 Skills 体系的流程化沉淀价值,实现测试流程复用与 AI Agent 自主驱动的双重提效。
魏兵
岩山科技 二三四五网科
资深测试开发工程师
资深测试开发工程师,目前主攻TestAI及智能化测试方向,深耕测试基建、AI测试研究和落地,具备丰富的工程实践与内外部技术分享能力行业从业10年+。

主导AI测试创新实践,负责测试平台架构设计与相关开发,搭建TBS基础模型服务与AI质控小助手,支撑AI生图效果与合规自动化判定、模型调用、合规分析等能力,引入云真机Sonic技术的落地与二次开发,深入开展业务图谱、代码图谱构建等知识图谱研究,推动AI生成用例落地,全面提升测试效率与质量。

具备极强的内外部技术分享能力,受邀在MTSC2025等行业大会做外部分享,多次开展AI测试、LLM应用、AI Agent等内部技术培训;精准带教5名测试人员成长为测试开发骨干,强力赋能团队能力升级。
待定
待定
从“自动化”迈向“认知智能”:知识图谱驱动的测试效能变革
议题背景:
当前 AI 赋能测试常因缺乏深度业务理解而沦为“指令执行手”,面临认知局限与伪智能困境。通用大模型在垂直领域往往因“广度受限”无法覆盖复杂业务流转,因“深度不足”难以理解隐性规则与代码依赖,导致生成的测试方案准确性低、维护成本高。本次分享将探讨如何通过构建“需求-业务-代码”三位一体的知识图谱,打破数据孤岛,为 AI 打造具备全域视角的“业务大脑”,推动质量体系从被动的“自动化验证”迈向主动的“认知智能决策”。

内容大纲:
1. 困局与思考:AI 测试的“智商”天花板
    1.1 痛点剖析:AI 为何只是依赖人工指令的“执行手”而非懂业务的“设计师”?
    1.2 核心矛盾:垂直领域知识的“广度不足 + 深度不够”导致伪智能。
2. 体系重构:构建“需求-业务-代码”三位一体的知识图谱
    2.1 顶层设计:基于“图数据库”打通需求文档(真理源)、业务逻辑(黑盒层)与代码实现(白盒层)的数字孪生架构。
    2.2 价值逻辑:利用知识图谱的“多跳推理”能力,解决跨层级关联分析难题。
3. 实践之路:从“理想化”到“工程化”的演进与踩坑
    3.1 应用功能图谱 :摒弃高成本的全自动探索,确立 “AI 预处理 + 人工确认” 的 Human-in-the-loop 模式。
    3.2 全域代码图谱 :基于 Tree-sitter AST + 自定义规则 ,攻克多语言解析与业务接口调用链(Call Graph)追踪难题。
    3.3 需求文档图谱 :告别生成式图谱的“幻觉”陷阱,回归更稳健的 PageIndex 结构化索引(RAG 2.0) 。
4. 价值落地:图谱驱动的全生命周期赋能
    4.1 智能测试 :基于图谱拓扑的动态用例生成与“改哪里测哪里”的精准回归。
    4.2 研发协同 :IDE 端的变更风险实时预警与新人业务专家助手。
    4.3 产品协同 :需求冲突检测与资产复用。
5. 展望:构建质量中枢的数字孪生底座

听众收益:
1. 获得架构蓝图 :带走一套可落地的、包含应用功能/代码结构/需求文档的 全域知识图谱构建方案 。
2. 避开落地深坑 :通过我们的试错经验(如全自动探索的死循环、生成式图谱的幻觉),掌握在工程实践中如何权衡 自动化率 vs 准确性 、 灵活性 vs 可控性 。
3. 解锁效能新玩法 :了解如何利用图谱技术实现 精准回归分析 、 研发变更风险预警 等跨角色场景,为企业效能提升提供新思路。
李永龙
六方云科技 测试开发工程师
从事软件测试与测试开发工作多年,长期在一线负责复杂系统的回归测试与自动化体系建设。
在实际项目中维护过数百条自动化用例,单次回归执行时间长、系统演进频繁,传统脚本式自动化在稳定性、维护成本和反馈有效性方面逐渐失效。
基于这些长期实践中的问题,逐步探索并构建了一套以 Intent-driven、确定性执行和反馈回路 为核心的自动化测试体系,用于应对系统变化、降低噪音并提升回归测试的长期可持续性。本次分享内容均来自真实项目实践与持续迭代总结。
待定
待定
拒绝黑盒与随机性:一种意图驱动的确定性 
UI 自动化执行架构与鲁棒性反馈实践
议题背景:
在 AI 被大量引入自动化测试之后,许多团队并没有获得预期中的“解放”,反而在回归执行和问题排查阶段承受了更高的不确定性成本:
同一条测试描述,在不同时间或上下文下生成不同执行路径;
一次失败,难以判断是用例问题、模型理解偏差,还是执行环境变化。
这些问题并非源自模型能力不足,而是工程体系中“执行边界”被模糊化:系统开始替人做决策,却缺乏可复现、可定位、可回放的工程约束,最终导致自动化资产难以维护、难以规模化。
本议题基于一套真实落地的 UI 自动化执行体系实践,从工程视角出发,重新划分“人、AI、系统”的职责边界,提出一种以“测试意图”为核心、以确定性执行为目标的架构思路,并通过执行鲁棒性反馈机制验证其在真实回归场景中的可持续性。

内容大纲:
1. 为什么“更智能”的自动化,反而失去了工程可控性
    1.1 AI 自动化引入后的三类常见失效场景
    1.2 黑盒决策与随机执行对维护成本的放大效应
    1.3 自动化测试中“不确定性”的工程含义
2. 重新划分责任边界:人、AI 与执行系统各自负责什么
    2.1 人:只负责测试意图与验证目标
    2.2 AI:用于意图理解与路径辅助,而非执行裁决
    2.3 系统:必须承担确定性执行责任
    2.4 为什么“执行层不可黑盒化”
3. 意图驱动的确定性 UI 自动化执行架构设计
    3.1 用例表达从“怎么点”到“想验证什么”
    3.2 执行层如何通过多策略定位吸收前端合理变化
    3.3 如何在不依赖固定 XPath 的前提下保持可预测执行
4. 执行鲁棒性反馈:让系统对变化有记忆
    4.1 记录定位 fallback、执行路径偏移与前端变化
    4.2 将噪音转化为可观测信号,而不是人工兜底
    4.3 通过反馈回路评估系统吸收噪音的能力
5. 实践效果与反思
    5.1 真实长期回归场景下的执行规模、失败分布与稳定性观察
    5.2 哪些问题被系统吸收,哪些仍需人工介入
    5.3 这套架构的边界与不适用场景

听众收益:
1. 理解 AI 自动化测试“难维护”的真实工程原因,而非停留在工具或模型层面
2. 学会如何为自动化测试系统划定清晰的执行边界
3. 获得一套可直接借鉴的 UI 自动化执行架构设计思路
4. 对“确定性、可复现、可观测”在 AI 时代测试工程中的价值建立系统性认知
5. 少走“黑盒智能化”的弯路
胡梦飞
快手 研发效能专家
快手研发效能中心用例管理平台负责人。负责用例管理平台的整体规划与研发落地,主导快手智能测试用例生成系统建设,推动 AI 用例生成率从 8% 提升至 60%,实现测试效能在业务场景中的规模化实践。加入快手前,曾先后任职于贝壳找房与美团,积累了丰富的大型互联网研发效能与质量平台建设经验。长期深耕智能化测试领域,持续探索 LLM、Agentic 架构在软件测试中的落地应用,致力于通过 AI 与工程方法推动测试提质增效。
待定
待定
生成率从8%到60%:快手智能测试用例生成系统的四阶进化
议题背景:
随着大模型能力的快速突破,软件测试领域正迎来从"人工编写用例"向"智能体自主生成"的范式变革。传统用例编写面临效率瓶颈高、覆盖不全、与业务上下文脱节等长期痛点,早期 AI 尝试生成率仅有 8%,远未达到可用标准。
本次演讲将分享快手效能研发平台在智能测试用例生成领域的系统性探索:从基础 Prompt 工程到 RAG 知识增强,再到 Agentic 架构的引入,历经四个演进阶段,将有效生成率提升至 60%。我们将深度还原每个阶段的技术选型、工程实践与踩坑经历,以及如何构建数据闭环推动 AI 能力持续进化。

内容大纲:
1. 行业背景与痛点洞察:传统用例管理的效率瓶颈与 AI 时代的范式转变
2. 智能用例生成四阶进化:RAG 增强、Agentic 架构与数据飞轮的完整演进路径
3. 多业务线规模化实践:推广策略、质量度量体系与量化收益
4. 未来展望:从用例生成到测试全链路智能化的下一步

听众收益:
1. 了解快手智能测试用例生成的四阶进化路径,获取从 RAG 增强到 Agentic 架构的完整技术选型逻辑与踩坑经验,可直接借鉴落地。
2. 掌握 AI 测试工具从 Demo 到生产的规模化推广策略,了解各阶段真实效果演进数据与关键转折点,获取可扩散借鉴的工程实践经验。
关注QECon公众号
关注QECon视频号
议题投稿 
lijie@qecon.net  
票务联系 
18649077637  Lily 
 
媒体合作
135-1619-6409  皮皮
商务合作
151-2264-3988  木子
购票咨询
18649077637  Lily
服务总线
400-183-9980  
电话咨询
联系电话:
18649077637  Lily