字节智能测试技术探索及实践-2025北京站_QECon全球软件质量效能大会-橙柚科技

优惠倒计时

8折票抢购中

团购享受更多优惠

北京站 · 10月31-11月1日

上海站 · 9月12-13日

深圳站 · 5月23-24日

专场：字节智能测试技术探索及实践

在大模型高速发展的时代背景下，如何将智能化能力应用到测试领域、解决传统测试领域瓶颈问题成为质量保障领域一个非常重要的探索及研究方向。借鉴研发智能助手相关领域的产品形态，字节质量技术团队将重点投入在智能测试助手方向，通过集成客户端、服务端等多种智能化测试能力，实现全流程的智能测试。本专场重点介绍智能助手及基础智能能力的建设及在字节当前的应用实践。

专场出品人：李晓蕾

字节跳动质量智能化专家

互联网质量技术领域方向10年+的实战经验，曾在百度、滴滴就职，主要负责调用链路/用户级链路异常检测、客服质检等方向，当前在字节质量技术负责质量智能方面的能力深耕。

王裕坤

字节跳动质量技术团队测试开发专家

字节跳动质量技术团队测试开发专家，目前主要负责字节质量平台小Q-用例生成方案的架构设计以及算法效果调优，为业务QA以及RD同学提供通用文本用例生成能力，辅助业务方更好、更快的完成测试任务。毕业后曾就职于奇虎360、搜狗、美团，从事业务质量交付，风险质量识别治理、大模型PE以及SFT等研究工作。

待定

基于AI的智能用例生成探索之路

随着大模型的发展和迭代，LLM在测试领域的应用也变得越来越深入，业界在文本用例生成领域也做了较多的探索。在用例生成的探索实践中也会遇到了一些卡点和难点，比如用例生成的准确率不够高，模型在理解测试意图时不准确，用例生成出现遗漏、生成的结构符合业务的用例阅读习惯等等，针对上述问题业界也缺少一个标准清晰的解决方案。本次演讲过程，重点关注如何进行基于模型的用例生成架构的设计，同时也将实践过程中踩过的坑进行一些剖析，找到正确的实践方向。

内容大纲
1. 现状：描述前期用例生成当时的问题，以指标定方向，从准确率以及召回率等方面对当时的信息进行还原。将问题描述清楚，进一步引出要解决什么(目标)、困难有哪些(挑战)
2. 目标与挑战
2.1 目标：为业务方提供值得信赖的文本用例生成服务。什么样的服务值得信赖？高准确，高召回是底线
2.2 挑战：(具体的难点)
2.2.1 需求理解：如何才能让模型更好的理解需求内容信息，需求意图准确
2.2.2 生成准确：在对需求理解清楚的情况下，如何生成准确的用例，以及准确性的细拆分,
2.2.3 生成完整: 在生成准确的情况下，还要保证生成的用例不出现遗漏，对应召回数据，同时确保在专项测试类场景能完整有效生成
2.2.4 结构合适：生成的结构应该符合用户的理解和消费习惯，降低用户理解用例、消费用例的成本
3. 初期探索(实践之路开始)：
3.1 生成架构1.0思考
3.1.1 描述1.0架构应该怎么设计，应该含有哪些阶段和功能
3.2 生成架构1.0概览：基于思考后的架构设计图，用于思考映射
3.3 重要阶段说明
3.3.1 模块生成：重点讲述在该阶段主要做了哪些事情，重点考虑哪些方面
3.3.2 功能点生成：阐述不同的功能点生成思路(PE/SFT的实践)
3.3.3 用例生成：涉及通用规则库、知识库的建设应用
3.4 数据效果分析
3.4.1 数据分析：从数据看哪些做的好，哪些做的不好
3.4.2 优化方向：基于架构实现以及数据的反馈统计得到后续的优化之路方向
4. 探索进阶
4.1 生成架构2.0思考
4.1.1 为什么要做2.0，从1.0遗留的现状以及新的挑战说明
4.1.2 明确需要解决什么问题，要怎么解决
4.2 生成架构2.0概览：基于思考后的架构设计图，用于思考映射
4.3 重要阶段说明
4.3.1 需求理解：引入知识精炼, 兼顾PRD/一句话
4.3.2 功能点生成：直接对比1.0的改进核心点，分段式->一体式，描述功能点生成的judger-reAct过程
4.3.3 用例生成：描述用例生成的judger-reAct过程
4.4 数据效果分析
4.4.1 数据分析：从数据看哪些做的好，哪些做的不好
4.4.2 优化方向：基于架构实现以及数据的反馈统计得到后续的优化之路方向
5. 总结与展望
5.1 经验与反思：走了哪些弯路，踩了哪些坑，有哪些教训
5.2 规划与展望：当前新的规划实践优化方案3.0版本，以及对后续发展的展望思考

听众收益
1. 如何基于大模型进行用例设计
2. 在模型应用方式上PE/SFT不同的架构方式的差异以及踩过的坑
3. 基于模型的用例生成后续演进的思考判断

李鹤

字节跳动质量技术团队大模型算法专家

现字节质量技术团队大模型算法专家，字节质量平台小Q产品的算法负责人，主要负责LLM驱动的UI自测智能体的算法架构和产品效果，先后在百度搜索、阿里通义实验室深耕NLP技术多年，曾主导大规模知识图谱产品技术，小蜜系列问答产品，大模型应用开发平台的算法研发，专注Agents、SFT&RL、知识问答等大模型应用技术的方案设计和产品研发。

待定

基于自进化的UI自主测试智能体

传统的UI测试受限于繁琐的人工用例编写以及复杂的自动化执行指令编写，在LLM快速发展的今天，computer use技术能够让LLM操作各种终端设备完成对应的功能，该技术的出现为UI测试带来了新的机会。我们提出的基于自进化的UI自主测试智能体能够自主理解用户需求，完成对应的测试任务，具体包括用例生成、测试数据构造、任务规划、反思、断言等核心能力，同时具备结合业务知识进行自进化的能力。

内容大纲
1. 传统UI自主测试的问题
1.1 用例编写
1.2 用例执行
2. LLM驱动的computer use技术
2.1 computer use范例
2.2 computer use关键技术
3. 基于自进化的UI自测智能体
3.1 问题和挑战
3.2 整体架构
3.3 用例生成
3.4 测试数据构造
3.4.1 什么是测试数据构造
3.4.2 技术方案
3.5 用例执行
3.5.1 任务规划
a. 静态plan
b. 动态plan
3.5.2 执行策略
3.5.3 反思机制
a. 反思触发
b. 反思新指令
3.6 智能断言
3.6.1 断言时机
3.6.2 断言预期生成
3.6.3 断言执行
3.6.4 note机制
3.6.5 静态断言
3.6.6 动态断言
3.7 基于记忆的自进化能力
4. 总结与展望
4.1 演进路线
4.1.1 V1.0
4.1.2 V2.0
4.1.3 V3.0
4.2 行业展望

听众收益
1. computer use的关键技术点解析
2. computer use技术在测试领域中的落地实践
3. 如何解决agent的效果自进化问题

高安凝哲

字节跳动质量技术团队大模型算法专家

先后在腾讯，深圳市大数据研究院工作，现字节质量技术infra团队大模型技术负责人。主要负责大模型训练，大模型架构的工作，研究领域涉及强化学习，模型对抗攻击等方面，在ACL，EMNLP，NAACL等NLP顶会上发表多篇论文。负责业务缺陷检测的算法优化和模型架构，提供提测前主动检测业务逻辑缺陷的能力。

待定

基于LLM的业务缺陷检测系统

传统质量保障依赖人工测试，存在被动响应、缺陷后置、黑盒检测三大瓶颈。我们基于LLM构建“主动-前置-白盒”新范式，构建业务理解容器，实现产品需求到代码的精准映射；采用多智能体协作架构实现业务语义级缺陷检测。这些新技术的采用使得我们的检测能力有本质提升，并可迁移到其余代码质量的自动化检测流程

内容大纲
1. 传统质量保障的范式
1.1 现状
1.1.1 被动性：测试/开发理解断层 → 沟通成本很高
1.1.2 后置性：缺陷泄漏链条（自测→回归→灰度→线上）
1.1.3 黑盒性：外部用例模拟 vs 内部逻辑盲区
1.2 数据实证
1.2.1 Flowco/Botbot需求空间数据
1.2.2 业务分析与业务目标
2. LLM驱动的质量革新
2.1 范式升级路径
2.1.1 被动 → 主动｜后置 → 前置｜黑盒 → 白盒
2.2 历史数据尝试
3. 缺陷检测架构演进
3.1 多智能体协作架构
3.1.1 PRD Reader：企业项目业务精确理解
3.1.2 Searcher：CodeGraph调用链代码知识图谱
3.1.3 Code Checker：跨端风险检测智能体
3.2 核心突破：实体对齐技术
3.2.1 问题：LLM长文本注意力分散
3.2.2 方案：功能点-代码块动态绑定（对比学习框架）
3.2.3 成果：Embedding模型 VS LLM 耗时/准确率
3.3 工业级部署架构
3.3.1 实时感知 → 实体对齐 → 风险检测 → 修复建议流水线
4. MCP架构
4.1 locagent改进
4.2 MCP架构
4.3 LLM微调能力验证
5. 实证成果：从实验室到业务战场
5.1 缺陷检测沙盘

5.1.1 电商9个MR实测
5.1.2 典型案例
6. 缺陷检测完整链路
7. 总结与展望
7.1 演进路线
7.1.1 V1.0：缺陷检测专家
7.1.2 V2.0：自愈型代码医生
7.2 行业展望
7.2.1 质量保障从成本中心→价值创造中心

听众收益
1. 大模型进行业务文档理解的架构设计
2. 大模型进行缺陷检测的架构流程
3. Embedding模型，大模型和codegraph进行功能点<--->代码实体对齐的idea
4. 大模型在进行缺陷检测时的能力边界和不足

陈超宇

字节跳动质量技术团队算法专家

字节跳动质量技术团队算法专家，目前主要负责字节质量平台小Q-通用缺陷检测（通用智能Code Review）的方案架构设计和算法研发，为研发提供通用的代码CR能力，提高研发代码质量。毕业后曾就职于蚂蚁集团和创业公司，从事AIOps，代码大模型基座，AI for Coding等算法研发工作。

待定

基于LLM的通用Code Review实践

通过大模型及其技术，解决多语言代码评审中的通用缺陷检测问题。有效缓解人工CR的时效和不稳定问题，同时希望将各种工具整合，提供端到端的CR能力。

内容大纲
1. 现状：描述Code Revews的问题，人工CR的问题：时效慢，效果不稳定，工具孤岛，进一步引出要解决什么(目标)、困难有哪些(挑战)
2. 目标与挑战
2.1 目标：为业务方提供有价值的代码评审评论，同时保障准确率来维护用户体感
2.2 挑战：(具体的难点)
2.2.1 代码理解：如何才能让模型更好的理解代码上下文，上下文工程如何做好。
2.2.2 评论生成：如何生成有价值的代码评审评论，找到有价值的代码缺陷（主要是通用缺陷）
2.2.3 评论质量筛选: 在大模型幻觉的情况下，评论的质量需要进一步的筛选，过滤掉错误的评论，没价值的评论等。
2.2.4 工具整合：如何整合现有的CR工具（例如静态扫描工具等），进一步增强大模型CR的整体能力。
3. 初期探索
3.1 CR一期（V2）思考
3.1.1 描述CR一期架构应该怎么设计，应该含有哪些阶段和功能
3.2 CR-V2的Workflow
3.3 模块说明
3.3.1 评审规则库：涉及CR规则库、CR规则本体树
3.3.2 评论生成：重点讲述CR-V2基于规则的评论生成能力
3.3.3 评论验证：CR-V2基于规则的评论验证和筛选
3.4 分析与反思
3.4.1 效果数据：从数据看哪些做的好，哪些做的不好
3.4.2 优化方向：往V3的架构演进
4. 探索进阶
4.1 CR二期（V3）思考
4.1.1 接着V2, 为了解决V2的问题，我们开始的CR-V3
4.1.2 对V3的目标更明确
4.2 CR-V3 Workflow
4.3 CR-V3模块说明
4.3.1 CR范围增加，MR级别的Code Review
4.3.2 新的评论生成模式：不再基于“规则”，而是基于“类型”。
4.3.3 新的评论验证模式：通用 + 垂直结合的方式
4.3.4 更好的代码理解：MR智能分组，动态上下文
4.4 分析与反思
4.4.1 效果数据：V3相对V2的数据提升
4.4.2 优化方向：持续优化的思路和方向
5. 总结与展望
5.1 经验与反思：走了哪些弯路，踩了哪些坑，有哪些教训

5.2 规划与展望：后续规划

听众收益
1. 大模型做智能CR的一些架构设计经验
2. 大模型做通用CR的优劣势和效果

赵亮

字节跳动质量技术团队

质量内建智能化场景技术负责人

先后在蚂蚁集团余额宝质量技术和研发效能任职、现就职于字节质量保障团队，现任字节质量内建智能化场景技术负责人，曾发表4篇国家技术专利。在质量技术、程序分析以及智能化相关场景的应用上有丰富的项目经验和落地成效。

待定

基于Agent架构的单元测试落地实践

在软件开发的生命周期中，自动生成单元测试成为提高代码质量和开发效率的关键技术。本产品基于大模型技术结合深度程序分析，针对字节研发内部需求，实现存量及增量单元测试的自动生成。通过真实业务流量采集、司内单测框架能力和路径提升技术，本产品能有效解决单元测试的用例真实性和覆盖率问题，提升测试用例的生成效率和代码覆盖率。此外，产品还包括断言工程、语法修正技术和效果度量，确保测试的准确性和可靠性，在支持快速迭代的开发流程中，显著提升研发效率和降低迭代周期。

内容大纲
1. 现状：介绍当前业务整体历史原因及日常研发当中编写单测对业务效率的影响，经历了一年多的单测生成技术的经验积累及试错重构了智能化的单测生成能力。
2. 目标及挑战
2.1 目标：降低研发编写单测耗时，生成高价值用例，打造智能化更懂用户的单测生成效果。
2.2 挑战：
2.2.1 灵活智能：生成更符合用户意图的框架、风格、编写策略
2.2.2 模型效果：在模型生成效果上对准确率、语义理解以及生成的通过率的要求。
2.2.3 跨语言：在保障效果不劣化的情况下实现多语言的快速拓展。
2.2.4 用例价值：在数据构造、用例设计贴合业务场景，是单测的关键问题。
3. 单测生成的破局之路
3.1 模型与程序分析的融合
3.2 数据充分度提升
3.3 等价类提升思想
4. Agentic智能化的革新
4.1 Agent的设计思考
4.2 Single Agent与Multi Agent实现路径
4.3 Tools对Agent的支撑
4.4 MCP协议下的单测架构
4.5 RL对Agent的优化实验
5. LLM的演进之路
5.1 单测模型的架构演进
5.2 数据工程建设
5.3 PE工程及模型微调
5.4 评测工程建设及效果
6. 效果度量及演示
6.1 多场景及效果介绍
6.2 用例生成演示
7. 总结及规划
7.1 产品总结
7.2 后续规划

听众收益
1. 服务端自动化专家：了解单元测试建设的新思路，提升业务单测生成质量和效率，行业间交流，扩展提效工具建设思路。
2. 质量智能化专家：拓展研发质量在智能化建设上的思路，挖掘更多智能化在研发质量建设的新方向。
3. 效能领域专家：结合模型技术趋势和传统软件技术，为行业提供更多效能领域的解决方案和思路。