议题背景:
在大模型落地质量保障领域的过程中,业界普遍面临"单点能力强但体系化难"的困境——AI能写用例却跑不通全流程,能力散落在各处无法复用和沉淀,VL模型看得到页面却不认识业务组件,知识碎片化导致Agent表现不稳定。MobiusAI是淘天集团内部孵化的Agent驱动智能测试平台,围绕"如何让AI能力可复用、可编排、可规模化"这一核心问题,构建了Skills(模块化能力封装)→ Workflow(可视化流程编排)→ 知识图谱(结构化业务知识底座)→ AI XMind(用例智能生成与结构化执行)→ Manus(Agentic智能执行引擎)的五层技术体系。其中Skills通过"工具+工作流+引用文档+领域知识"的渐进式披露机制,实现了一次创建、多处复用的能力沉淀;知识图谱从解决GUI Agent"看不懂业务页面"的痛点出发,通过"实体-关系"三元组构建结构化知识底座,进而反哺用例生成、Agent工具链、线上排查等全平台场景;AI XMind创新性地将用例生成与执行分离——AI负责生成结构化用例,工程Agent负责逐步执行与校验;Manus通过Supervisor-SubAgent分层决策+分形执行,实现了"提测即测试"的全链路闭环。平台已沉淀4000+工具、1000+智能体、1000+工作流,不仅在效率维度实现工作流搭建提速80%+、排查时间缩短10倍,更在AI浓度维度实现了从"人驱动AI辅助"到"AI驱动人审核"的范式转变。
内容大纲:
1. 开场:AI驱动测试的理想与现实
1.1 行业现状剖析:从"ChatGPT写用例"到"Agent跑完全流程",为什么大多数团队停留在"单点尝鲜"阶段?用一个真实案例引入
1.2 核心挑战拆解:能力散落无法复用、测试流程固化在人脑和脚本中、知识碎片化导致Agent表现不稳定、长链路任务上下文编排难
1.3 MobiusAI的答案:Skills→Workflow→知识图谱→AI XMind→Manus 五层技术体系全景图,从"能力封装"到"流程编排"到"业务知识底座"到"用例生成与执行"到"智能执行"的完整链路
2. Skills:模块化能力封装与渐进式披露——规模化落地的基石
2.1 为什么传统"给Agent堆工具"的方式走不通?
- 实际数据:工具超过50个后,Agent选择准确率断崖式下降,Token消耗翻倍但任务完成率反而降低
- 核心矛盾:Agent需要"专家级深度"而非"百科全书式广度",但复杂业务场景又需要多种能力协同
2.2 Skills核心设计:工具+工作流+引用文档+领域知识的四合一封装
- 拆解Skills六大组件的设计逻辑:工具(原子操作)、工作流(固定流程编排)、引用文档(SOP/排查指南/API文档)、技能说明(Markdown核心指令)、AI辅助生成、文档引用系统
- 类比:Skills就像"小领域专家的工具箱+操作手册",而不是"什么都会一点的万能助手"
2.3 渐进式披露机制——解决上下文Token消耗的核心武器
- 原理:Agent根据用户问题自动判断并加载相关技能,复杂知识外置到引用文档按需加载,而非一次性塞入全部能力
- 效果对比:渐进式加载 vs 全量加载的Token消耗和准确率对比数据
2.4 五大设计原则实战经验(原则 / 设计要求 / 踩坑教训):
- 单一责任:每个Skill只解决一类问题。踩坑——早期"大而全"Skill导致加载冲突率高达30%
- 工具精简:推荐3-8个工具,避免超过15个。踩坑——工具超过15个后Agent"选择困难症"显著
- 描述精准:技能描述决定AI识别准确性。踩坑——描述模糊导致技能误触发率超过20%
- 场景闭环:能独立完成完整流程。踩坑——半吐子Skill导致Agent中途卡死
- 知识外置:复杂知识放到引用文档。踩坑——内联知识撑爆Skill描述的500字符上限
2.5 落地成效——Skills如何驱动平台规模化增长:
- 从"几个人用"到"全团队用"的关键转折:Skills使能力复用率从不到10%提升到规模化复用
- 平台级效果:通过Skills体系赋能,平台沉淀4000+工具、1000+智能体,新业务域接入从"两周开发"变为"配置化复用"
- 典型场景覆盖:自动化用例生成、代码变更影响分析、特定业务数据构造、线上问题智能排查、接口回归测试、领域知识问答
3. Workflow:可视化流程编排与AI助手——测试逻辑的确定性保障
3.1 为什么需要Workflow?散落在脚本、文档、人脑中的测试流程统一沉淀为可视化工作流,改一个流程不用改代码,拖拽配置即可生效
3.2 30+节点生态与关键节点深入解析(节点分类 / 典型节点 / 测试场景应用):
- Mobius服务:Agent应用、工具调用、日志查询、子工作流 → 复用平台已有能力,快速搭建测试流程
- 模型处理:LLM大模型、意图识别、IDEAs → 智能分析测试结果、生成测试报告
- 拓展能力:HTTP请求、Code代码执行、定时器 → 对接测试系统、实现自定义校验逻辑
- 逻辑控制:条件分支、循环、Break/Continue → 复杂测试分支和批量用例执行
- 知识库:知识检索、知识写入 → 测试用例库管理、问题知识沉淀
- GUI自动化:GUI Agent、移动端截图 → 端到端UI自动化测试
3.3 AI助手核心能力——自然语言搭建测试工作流:
- ReAct模式:"思考-行动-观察"智能循环 + 40+工具自动创建和配置各类节点
- 能力矩阵:理解需求→规划流程→创建节点→建立连接→验证修复→问题排查,全流程自动化
3.4 三层上下文压缩策略——复杂工作流搭建的关键技术:
- Layer 1: Micro Compact规则压缩(工具调用累积token>20K时触发)
- Layer 2: Tool Call语义转换(新消息保留工具语义,旧消息只保留文本)
- Layer 3: Intelligent Summary智能摘要(总token>80K时LLM生成结构化摘要)
3.5 踩坑实录与量化效果:
- Schema快照与状态回滚机制:每次用户发送消息前保存工作流状态,支持一键回滚
- 效率提升:简单工作流(3-5节点)从10-15分钟降至1-2分钟,提效80%+;复杂工作流(10+节点)从1-2小时降至10-20分钟,提效70%+
- 平台已沉淀1000+工作流,覆盖多个业务域
4. 知识图谱:从GUI Agent"看不懂页面"到结构化业务知识底座(6min)
4.1 起点:GUI Agent执行为什么频繁"卡住"?
- 真实困境:Manus的GUI自动化四Agent协作模型在执行交易测新流程时,Executor基于VL(视觉语言)模型理解页面,但VL模型没有训练过业务场景——它能识别"按钮""输入框",却不认识"商品SKU""星环路由""预售价格组件"等业务专有概念
- 第一次尝试——朴素RAG:将业务文档切片存入向量知识库,执行前召回相关文本片段注入上下文。结果:语义相似度匹配召回的片段碎片化严重,关联关系丢失,Agent拿到一堆零散描述依然"不知道该点哪里"
- 核心洞察:VL模型缺的不是"看到了什么"的视觉能力,而是"这个东西是什么、和什么有关系、操作它会发生什么"的结构化业务知识
4.2 解法:为什么选择知识图谱而非继续优化RAG?(朴素RAG vs 知识图谱对比)
- 数据形式:朴素RAG是非结构化文本片段 vs 知识图谱是结构化"实体-关系-实体"三元组
- 检索方式:朴素RAG是语义相似度匹配 vs 知识图谱是图遍历+关联推理(支持多跳推理)
- GUI场景效果:朴素RAG召回碎片缺乏上下文关联 vs 知识图谱提供"页面→包含→组件→触发→接口"完整链路
- 业务理解:朴素RAG是浅层语义匹配 vs 知识图谱提供实体间层级/因果/依赖关系
- 关键决策:针对GUI Agent场景的本体建模与用例生成场景完全不同——GUI场景建模核心是"页面-组件-操作-接口"的导航链路,用例场景建模核心是"需求-功能-规则-验证点"的覆盖关系
4.3 构建流程:本体建模→知识抽取→融合识别
- 本体建模(最核心):定义实体类型(页面、组件、接口、错误码等)和关系类型(包含、依赖、触发、导航到等),构建业务域的"知识骨架",建议5-15个实体类型
- 知识抽取:AI自动从文档中抽取实体/关系/属性,支持Qwen3 Max/Kimi K2.5/DeepSeek等多模型,异步任务执行
- 融合识别:同义实体合并("优惠券"="红包券")、上下位关系建立("营销工具"→"优惠券"),消除知识冗余与冲突
4.4 从GUI场景反哺全平台——知识图谱的溢出效应:
- 反哺用例生成:图谱提供的结构化业务关系,让AI生成用例时不再"凭空编造",而是基于真实的功能关联和业务规则生成,用例准确率从朴素RAG增强显著提升至69.23%
- 反哺Agent工具链:Agent在调用工具时,通过图谱理解工具与业务实体的对应关系,减少工具误选和参数错填
- 反哺线上排查:故障排查场景中,图谱提供"错误码→组件→依赖链路"的多跳推理能力,快速定位根因
- 一句话总结:知识图谱最初是为了解决GUI Agent"看不懂页面"的痛点而建,最终成为提升整个平台AI业务理解深度的知识底座
5. AI XMind:AI写用例×Agent跑执行——用例生成与自动化执行的分离架构
5.1 为什么不能让同一个AI既写用例又跑执行?
- 传统方案的困境:AI生成的用例是"自然语言描述",到执行时需要人工翻译成可操作步骤,信息传递断层严重
- 核心设计理念:"AI负责写用例(擅长理解和生成),工程Agent负责执行和校验(擅长确定性操作)",各司其职而非全能
5.2 结构化用例的执行协议设计——让AI输出"可被Agent直接执行"的用例:
- Case节点的层级执行协议(思维导图层级 → 可执行协议映射):
第1级:Case节点(用例)
第2级-首节点:数据准备 → 测试数据描述
第2级-后续节点:执行步骤1、执行步骤2...
第3级:执行操作(具体操作指令)
第4级:预期结果标签
第5级:预期结果内容(校验标准)
- 关键设计决策:为什么选择思维导图层级映射而非JSON/YAML?——可视化可编辑可人工干预,AI生成后人可直接在导图上调整步骤再交给Agent执行
5.3 节点级AI执行引擎——每个用例节点都是一个可独立执行的测试任务:
- 执行状态机:idle(待执行)→ running(执行中)→ completed/error
- 每个执行步骤自动拆分为"执行操作"和"预期结果校验"两阶段,Agent逐步执行并实时返回结果
- SSE流式通信:step_start → step_complete → complete/error,前端实时渲染执行进度
5.4 批量执行与执行看板——从"一个个跑"到"批量并发执行":
- 执行看板按idle/running/completed/error四状态分Tab管理
- 支持批量选择节点并发执行,并发数可调(1-5),从低并发验证稳定性后逐步提高
- 节点定位:点击看板中的节点名称,思维导图自动定位到对应节点,执行结果与用例结构一一对应
5.5 踩坑与实际效果:
- 踩坑:早期让AI同时生成用例和执行指令,导致用例质量和执行成功率双双下降——"分离"后两端效果都大幅提升
- 实际效果:AI生成的用例人工审查调整后,通过结构化协议直接交给Agent执行,用例从"写完到跑完"的周期从小时级缩短到分钟级
6. Manus:Agentic智能任务执行引擎——"提测即测试"的最后一公里(8min)
6.1 Supervisor-SubAgent分层决策架构:
- 决策主管(任务拆解/智能分派/结果验收)+ 执行引擎(多专家并行执行)的双节点循环
- 动态子图构建:工厂模式Agent运行时实例化,新增业务域只需配置JSON而不是写代码
6.2 四层提示词架构:基础指导(静态角色定义)→ 业务指导(动态场景匹配)→ 决策增强(运行时上下文注入)→ 能力扩展(按需激活专项能力),解决提示词与业务场景高度耦合的迁移成本问题
6.3 分形执行架构:将复杂子任务"外包"给拥有独立决策闭环的二级Supervisor,实现注意力隔离,避免琐碎逻辑污染主流程上下文
6.4 交易域测新全链路实战演示:
- 六阶段流程:需求澄清→流程规划→用例生成→数据构造→GUI自动化执行→二次对话,以一个真实交易域提测任务串起全流程
- GUI自动化四Agent协作模型:Manager(规划)/Executor(视觉执行)/ActionReflector(自我纠错)/Notetaker(信息提取)
- 双向中断与微调机制:AI主动中断等待人工补充 + 用户主动中断纠偏,保障人机协同的可控性
6.5 踩坑实录:上下文压缩"吃掉"URL和分支信息的真实案例、提示词层级冲突的优先级策略、业务域路由误判的排查经验
7. 平台落地成效与经验总结
7.1 维度一:工程提效——让测试活动更快更省(提效场景 / 数据 / 说明)
- 工作流搭建效率:提升80%+。AI助手自然语言搭建,3-5节点流程1-2分钟完成
- 线上问题排查:30-60min → 5min。知识图谱多跳推理+Agent自动化排查,提速10倍+
- 数据一致性校验:效率提升80%。Workflow自动化回归流水线替代人工逐条比对
- 用例从编写到执行:小时级 → 分钟级。AI XMind生成+Agent结构化执行,消除人工翻译
- 新业务域接入:两周 → 配置化。Skills模块化复用,新域不再从零开发
7.2 维度二:智能化提测执行——提高测试活动的AI浓度
- 从"人驱动、AI辅助"到"AI驱动、人审核"的范式转变:
· Manus实现"提测即测试"——收到提测自动触发用例生成→数据构造→路由绑定→GUI自动化执行全链路,人只需审核结果
· AI XMind实现"AI写用例、Agent跑执行"——AI专注于理解需求和生成高质量用例,工程Agent专注于确定性执行和校验,各司其职
· 知识图谱让Agent从"工具操作者"进化为"业务理解者"——从最初解决GUI Agent看不懂页面,到全平台AI具备结构化业务认知
- AI浓度量化:
· 用例生成高准确率达69.23%,AI从"需要人逐条修改"到"人只需审核和微调"
· GUI自动化中准确率61.54%+高准确率15.38%,冒烟测试场景已实现无人值守
· 平台沉淀4000+工具、1000+智能体、1000+工作流,AI能力已渗透测试全生命周期
7.3 三个核心经验教训:
- 能力模块化是规模化的前提(Skills)——没有Skills的能力封装,工具和Agent就是一堆散沙,无法复用无法规模化
- 确定性编排是可靠性的保障(Workflow)——纯自主决策的Agent不可靠,需要状态机兜底
- 知识结构化是AI浓度的天花板(知识图谱)——VL模型和朴素RAG的上限决定了Agent的业务理解上限,知识图谱打破了这个天花板
7.4 未来方向:基于代码变更的测试场景智能评估、智能数据推荐模型、多模态模型优化、混沌测试探索
听众收益:
1. 获得一套"从能力封装到智能执行"的完整Agent平台建设方法论:Skills模块化→Workflow编排→知识图谱业务知识底座→AI XMind用例生成与执行分离→Manus智能执行,五层体系可直接参考复制到自身团队的Agent平台建设中。特别是Skills的模块化能力封装思路和XMind"AI写用例、Agent跑执行"的分离架构,是很多团队在Agent落地中忽视但至关重要的环节。
2. 理解知识图谱如何从"解决一个问题"演进为"平台级知识底座":从GUI Agent看不懂业务页面这一具体痛点出发,揭示为什么朴素RAG走不通、知识图谱如何解决、以及如何将图谱能力溢出到用例生成(准确率提升至69.23%)、Agent工具链优化、线上排查等全平台场景。这条从痛点到底座的演进路径,对任何正在建设AI测试平台的团队都有直接参考价值。
3. 收获"提效"和"AI浓度"双维度的落地成效评估框架:不只看"快了多少"的效率指标,更看到"AI在测试活动中的参与深度"如何从辅助工具升级为核心驱动力——从"人驱动AI辅助"到"AI驱动人审核"的范式转变,以及4000+工具、1000+智能体、1000+工作流背后的规模化运营路径和踩坑经验。