从0到1:基于多模态大模型与多Agent架构的移动端UI智能化
测试平台实战
议题背景:
演讲背景与痛点
传统移动端UI自动化测试(Python+Appium)面临三大核心困境:
- 泛化能力差:UI稍有变动即大量脚本失效,只能用于需求稳定期的回归测试;
- 维护成本高:每次UI变更需人工分析元素树、修改定位规则,平均耗时15分钟/Case;
- 门槛高:用例开发需掌握编程技能,普通测试人员难以参与。
工程落地路径(可复制)
分享从0到1的完整推广路径:
1. 能力摸底:邀请一线测试人员试跑现有Case,筛选可稳定执行的Case;
2. 分批落地:稳定Case纳入DailyRun,失败Case分批录制微调数据;
3. 微调迭代:微调完成后追加进批量执行池,形成持续扩大的自动化覆盖;
4. 多业务线复制:沿同一路径向新业务线推广,维护成本降低66%。
核心踩坑与优化经验(重点内容)
- 早期单Agent架构无法处理非UI操作(日志校验、数据准备),倒逼V2多Agent架构升级;
- 大模型输出不确定性导致"调试完成"标准缺失,如何用工程手段建立可量化的评估机制;
- 人工构造微调数据质量差、效率低,如何通过可视化录制工具实现质量与效率的双重突破;
- 开源模型UI识别能力不足时,优先从工程层面(并行投票、ReAct管理层)提升成功率,而非一味依赖微调;
- 长流程用例上下文爆炸问题,三层Agent拆解如何实现上下文的逐级压缩。
内容大纲:
核心方案与架构亮点
本次分享将完整拆解一套“从零构建、已在生产环境稳定运行”的移动端UI智能化测试平台,系统包含四大核心模块:
1. 自然语言用例调试工具(命令行IDE)
- 无需编程基础,像写文档一样描述用户操作;
- 命令行实时输出执行日志,同步展示手机端UI操作过程;
- 用例编写耗时从60分钟/Case压缩至10分钟/Case,效率提升6倍;
- 引入"容忍度评估机制"(批量执行N次,以通过率判定用例是否达到可批量执行标准),解决大模型输出不确定性带来的调试标准难题。
2. 三层多Agent执行系统(V2架构)
- 工具调用Agent(Qwen3.5-27B):作为系统入口,自动识别日志校验、数据准备、UI操作等不同类型任务并分发;
- UI管理Agent(Qwen3.5-27B):基于ReAct范式,驱动底层执行Agent在"推理-行动-观察"循环中完成测试步骤,相当于为多模态模型引入thinking模式;
- UI执行Agent(Qwen3-VL-8B):专注UI理解与元素定位,通过并行投票择优策略将单步操作成功率从50%提升至接近100%;
- 三层拆解架构有效破解了长流程测试用例(30+步骤)的上下文长度限制问题。
3. 可视化多模态微调数据录制系统
- 解决人工构造微调数据费时费力(30分钟/条)的痛点;
- 可视化界面支持设备切换、任务描述编辑、操作录制(点击/双击/长按/滑动/输入);
- 内嵌远程真机实时控制,操作体验与真机一致,数据制作时间从30分钟压缩至5分钟;
- 支持操作预览(截图上标记点击坐标、滑动轨迹),保障微调数据质量。
4. 可视化测试报告系统
- 双层报告结构:总览层(通过率、耗时、模块分布饼图、单Case性能点线图)+ 详情层(全部/成功/失败用例三维视图);
- 每步操作均保留UI截图并标注操作位置(点击坐标、滑动轨迹),形成可追溯的执行铁证;
- 完整记录模型思考链与执行日志,支持高效Review与Debug。
听众收益:
一套可以直接拿来复制落地的系统实现方案,其中还包括了很多的菜坑和优化经验