专项测试-上海站_QECon全球软件质量效能大会-橙柚科技

8折票售票中

团购享更多优惠

深圳站 · 5月12-13日

北京站 · 7月28-29日

上海站 · 9月22-23日

优惠倒计时

一直以来，专项测试都是研发团队投入的重点，同时也面临巨大的技术挑战；目前随着业内在Web/应用服务器性能测试、全链路压测、混沌工程、安全性测试、兼容性测试等方向专项测试技术的沉淀，在软件质量保障和效能提升上均提供了有力的支撑，本专题将围绕后端专项测试技术展开交流和讨论。

专项测试专场

专场出品人：高婷

专场出品人：何纯

快手社区生态&移动端质效中心负责人

前字节跳动游戏上海工作室质量和效能负责人

负责快手内容生产、平台技术质量等方向团队。10年+多媒体经验，赛道从通信光传输行业、终端手机相机到短视频内容。擅长画质和图像算法、音视频算法、CV、语音、智能生产、搜索等方向，长期致力于多媒体体验和效能提升，提供极致用户体验。

互联网行业从业多年，先后就职于微软、九城、腾讯、字节。
从0到1参与制定了腾讯手游和字节手游的质量流程-规范-标准，先后负责多个游戏产品的质量保障工作，在效能提升领域有较多理解和实践；长期致力于打造高效的SDLC安全生产研发流程，包括不限于需求管控、质量前移、隐私安全合规、巡检、可观测性等。

1. 流量回放在预发不mock实践、如何解决其中遇到问题
2. 流量回放在线下mock回放实践，如何解决其中遇到问题
3. 如何降低沙箱挂载和录制对业务服务的影响。
4. 如何使用流量录制回放来解决服务迁移(读接口和写接口分开)，来为研发和测试质量保驾护航。
5. 流量录制回放在其他方面的探索。

周官宝

得物资深后端开发工程师

得物中间件团队资深后端开发工程师，目前主要负责流量录制回放。拥有5年后端开发经验。
毕业后曾就职于美团、喜玛拉雅，负责内部工具、结算、活动、ToB等平台开发工作。最近参加了《Testerhome&酷家乐》主办线下技术沙龙活动。

待定

得物的流量录制回放实践

随着微服务日益推广开，测试在接口自动化投入和案例的维护不堪重负。流量录制回放为其提供一种可行的方案，将读接口100%由流量回放平台代替，降低测试投入成本同时提高问题发现能力。

1.了解流量回放可以给测试带来新的思路和解决方案，提供一种新的手段。
2. 如何更好在公司落地和实践

内容大纲

听众收益

1. 故障演练背景
1.1 故障演练前世今生，介绍了故障演练的历史背景跟基础概念
1.2 故障演练原理，介绍场景的故障类型以及注入方式
1.3 故障演练类型，接口级故障演练、应用级故障演练、机房级故障演练
2. 故障演练实践
2.1 如何设计故障注入场景，阐述端到端演练中有效设计演练场景跟故障注入点
2.2 如何有效组织一场故障演练，介绍故障演练在端到端测试过程中复杂性和挑战性
3. 故障演练效率提升
3.1 接口级自动演练，如何通过接口自动化进行演练
3.2 端到端自动演练，如何结合 UI 自动进行演练
3.3 效率提升实践，阐述实际业务落地端到端的故障演练方案和成果
4. 展望跟后续规划
4.1 全链路故障演练，自动完成全链路故障节点部署
4.2 故障演练自动编排，结合端测试自动化、故障随机注入进行观测

杨杰/安思琪

bilibili 资深测试开发工程师

杨杰｜哔哩哔哩资深测试开发工程师
2021年加入哔哩哔哩，主要负责C端播放内核&创新业务，负责播放质量benchmark建设以及各类测试提效专项落地工作。有丰富的短视频和直播的业务质量保障经验。

安思琪｜哔哩哔哩资深测试开发工程师
哔哩哔哩质量保障中心资深测试开发工程师，目前主要负责C端流量&动态业务，推进业务稳定迭代、持续交付、质量提效等质量保障体系的建设。8年互联网测试开发经验，有丰富的业务质量保障、稳定性治理、测试效能平台工具开发经历。

待定

B站端到端故障演练探索与实践

互联网行业应用的架构逐渐向微服务架构演进，研发的效率以及系统扩展性有了大幅提高，但是服务之间依赖的不确定性也随之增加，任何一个依赖的不可用或者异常的变化都可能会调用方造成非预期内的影响。传统的业务测试方式已经无法有效的发现微服务架构下质量风险，测试有效性无法得到确认，为此需要衍生出一套常态化故障演练体系，逐步提升系统的健壮性跟可用性。

了解故障演练原理以及常见操作方式，以及在落地实践过程中遇到的成本、效率等问题，通过分享可以在原有的人工验证环节升级到端到端自动化演练，提升整体的演练效率。

内容大纲

听众收益

1.为什么需要进行依赖级别的故障演练
应用的迭代频率高，应用之间的依赖关系复杂。由不合理的依赖导致的线上问题数量远比由某个业务、机房、可用区整体宕机导致的问题数量多。对业务的依赖进行梳理和强弱关系治理，并相应制定合理的降级预案，是保障系统核心业务稳定性的重要的手段。
2. 如何进行依赖自动采集
依赖级别的故障演练，前提条件是能够采集到依赖关系。比如某个应用的某个接口，依赖了另一个应用的多个接口。这种关系的采集，人工梳理的方式太过低效，通过 Trace 等系统的数据梳理又受制于 Trace 的接入覆盖度以及采样率。基于这些原因，我们采取的是在公司的微服务框架中集成依赖的自动采集的能力，在调用依赖方的位置，除了挂载故障注入的能力，也挂载了依赖关系上报的能力，这样依赖采集和故障注入能力天然匹配，提升依赖采集的效率。
3. 如何实现不同组件的故障注入
采集到依赖关系之后，就可以将依赖分别作为靶点，实现故障注入进行实验了。故障演练平台是以 AOP（Aspect Oriented Programming）的思想来实现故障注入的。在 Golang 的微服务框架之下，因为没有 JAVA 的动态代理和字节码增强等技术，所以需要另辟蹊径。相比动态法（通过反射找到运行方法的指针，插入一段代码之后再执行原有的代码）的诸多限制、静态法（基于抽象语法树的代码插入法）需要重新生成代码的麻烦，我们选用的是代码模式的方式，即中间件模式。对于用户来说，只需要一行代码，就可以实现故障注入 SDK 的接入。而在这一行代码的背后，就是调用的各个基础组件的中间件注入方法，注入各自的故障注入中间件实现。这种方法支持所有的编译环境，也不需要重新生成代码，对用户接入成本非常低。
具体的，我们支持的故障注入的组件，覆盖了公司业务绝大多数的场景。包括了gRPC 的服务端/客户端、HTTP 的服务端/客户端、各类缓存（Redis/MC）、消息队列、数据库（MySQL/TiDB/ES/Taishan）等等，故障的行为主要包含错误、超时以及一些组件特殊的行为。
4. 如何实现爆炸半径的控制
爆炸半径的控制是实现故障演练的重要要求之一。演练的目的是发现问题，而不是制造问题。对于爆炸半径的控制，一方面，我们支持从实例、靶点生效的入口接口，甚至是用户 ID 层面进行圈定，层层控制范围，支持在线下或线上的安全地演练；另一方面，对于靶点的设置，也可以实现精细控制，比如精确到 HTTP 接口路径的全匹配、模糊匹配，或者缓存的部分 key 模式才生效等等。
5. 故障演练的自动化
混沌工程的五大原则里面提及，要持续自动化地运行实验。我们也在往这个方向去做尝试。通过提供开放接口自动启动、关停故障演练实验，我们正在为接口自动化、UI 自动化集成故障演练能力赋能。更进一步地，我们在做复杂业务场景下，多应用的故障点自动组合、自动实验的能力，进一步降低故障演练的人力投入。

黄焱

bilibili 资深测试开发工程师

哔哩哔哩工程效率部资深测试开发工程师，目前主要负责哔哩哔哩性能测试、混沌工程、故障演练相关工作。

待定

B站故障演练平台实践

随着产品的不断壮大，保障系统稳定性成为愈发重要的课题。故障演练就是验证服务稳定性的重要手段之一。一般业务进行故障演练时，可能会选用一些开源的异常注入工具（比如 chaosblade 等）注入容器级别的错误，比如在某一个缓存使用的端口注入超时错误等。这种方式固然通用性好，然而也存在操作繁琐、复用率低、爆炸半径控制不够精确等问题。结合公司对混沌工程实践的落地情况，除了在较大粒度的容器、可用区等层面进行容灾的演练之外，故障演练平台更多关注的是迭代频率更高、粒度更细的应用内部依赖层面的故障演练。通过此类故障演练，我们可以帮助业务更清晰地梳理业务对接口、中间件的强弱依赖关系，更合理地建设降级预案，从而不断提升系统的稳定性。

1. 了解故障演练的基本概念
2. 借鉴依赖自动采集的方案
3. 借鉴故障注入能力的实施方案
4. 借鉴如何实现精细的爆炸半径控制

内容大纲

听众收益

1. 大世界手游前端性能的重要性和挑战
2. 前端性能质量保障全流程管线
3. 前端性能质量保障体系建设实践
4. 项目性能优化实战经验和案例分享

欧晓东

腾讯IEG 高级工程师

腾讯IEG 光子技术中心高级专项技术测试工程师，先后就职于西山居和腾讯公司，在腾讯约5年时间，主要从事游戏客户端性能专项测试和平台工具开发等工作，从2018年至今，一直负责PUBGM和其他在研项目的客户端性能测试和分析，客户端性能质量保障体系的建设。

待定

大世界手游前端性能质量保障体系

随着手游的快速发展，手游的市场竞争越来越大，无论是厂商还是玩家，对游戏品质的要求也越来越高。而开放大世界类型手游，由于其超大地图结合复杂的场景和玩法机制，对手机的性能带来了极大的挑战。如何保障移动端的性能体验成为一件棘手但极为重要的事情，结合PUBG Mobile前台性能测试领域的沉淀和经验，跟大家一起探讨UE4大世界手游性能质量的保障思路和体系建设，包括如何对大世界场景做全面的性能测试和分析，场景制作上容易出现的性能问题，以及如何搭建测试分析工具链，并沉淀分享一些手游通用的优化技术和项目实践。

了解UE4大世界手游在前台性能测试中遇到的挑战以及梳理我们团队在大世界手游的前台性能保障体系的建设经验和思路。希望通过本次分享能提供给大家在研发项目和运营项目上前台性能质量保障的有效建议和新思路，更好的服务并应用在实际项目中。

内容大纲

听众收益

何永超

快手商业生态质量负责人

快手商业生态质量负责人，目前主要负责快手小程序、开放平台、服务号、星火计划等业务的质量保障及效能建设工作，完成快手小程序0-1质量体系搭建，小程序生态治理专项建设，保障开放生态的健康和体验。毕业后曾就职于去哪儿网和支付公司，从事全链路业务保障、云测、一站式工作台提效等工作。

待定

快手小程序体系化质量保障实践

快手作为一个几亿日活的短视频平台，除了基础的短视频、直播主服务外，还提供了大量衍生服务。小程序作为生态重要的载体，让合作伙伴可以更加灵活自主的提供服务给快手用户。我们作为平台方，既要为小程序平台自身质量负责，也要保障生态质量，二者组成了小程序的质量保障体系。我们所面临的痛点和要解决的问题如下：
1. 事实标准，用户容忍度低：由于快手小程序起步时行业已经有了事实标准，我们需要在短时间内追齐大部分能力，引擎的基础保障水平要求极高。我们采用分层测试模型，将引擎测试分专项分层次拆解，逐一落实。
2. 保障链路复杂：小程序平台引擎所支撑的外部开发者业务，要比常规业务平台有更高的稳定性和卡点要求，对自动化水平要求更高。通过建立全流程基建体系和反馈闭环，保障平台质量。
3. 生态质量复杂多变：面对线上基于快手特色的海量异常和违规场景，我们通过与运营联手，建立生态治理模型，并实现云检服务，共同治理生态环境，为业务赋能。

1. 快手小程序质量体系建设思路和阶段拆解逻辑
1.1 快手小程序的发展特点和业务场景特点（遇到的问题）
1.1.1 发展特点：已存在事实标准，开发者容忍度低，需要短时间内实现能力对齐
1.1.2 业务场景特点：短视频、直播等场景，流量分发场景用户体感及其重要
1.2 阶段性保障思路，左移还是右移，有限的人力投入到哪里（解决的整体思路，拆解思路在2、3、4里面）
1.2.1 showcase阶段：引擎的基础保障
1.2.2 高速成长期：全流程基建体系建设
1.2.3 成长期：生态质量保障
2. 引擎基础保障——四层模型
2.1 四层模型的由来
2.2 模型介绍和应用-公开层、规范层、深挖层、底层
2.3 收益：研发实现有标准（9个），测试深度范围有据可依，推动19个专项测试
3. 全流程基建体系建设——提效&卡点
3.1 预接入实验室
3.2 内部研发卡点
3.3 线下质量保障提效
3.4 发布灰度机制
3.5 线上运行保障
4. 生态治理保障——治理模型&快手云检
4.1 生态治理模型讲解，Platform、Data、Service、Action、Effect
4.2 快手生态治理方案及收益

4.2.1 阶段性打法
4.2.2 云检平台在解决的问题
4.3 问题的多样性导致检测手段的多样性
4.4 实时检测or离线检测
4.5 问题处置方式的迭代
4.5.1 数据指标体系，利用北极星指标、牵引指标、约束指标，来衡量收益相关性和ROI合理性。
4.6 合规率
4.7 违规VV占比
4.8 巡检量指标
4.9 问题时长
4.10 解决率
4.11 ······

1. 了解快手小程序引擎（或引申为SDK、动态化等技术）的体系化保障思路
2. 了解组件测试的四层模型，可以借鉴和应用于自己业务的测试设计场景
3. 了解小程序基建体系的构成，借鉴解决方案思路，以及技术架构思路
4. 了解快手内的生态治理特点和整体方案及收益情况，如何从质量团队为业务赋能

内容大纲

听众收益

刘鹏威

华为云交易平台高级测试工程师

华为云交易平台高级测试工程师，从事性能测试与调优工作5年，对云化微服务框架下的性能测试架构有深刻的理解。主导构建了华为云交易平台的devops全流程性能看护框架。参与保障历次华为云大促的百倍流量压力。目前从事性能测试智能化相关工作。

待定

华为云交易平台性能看护10倍质效提升之路

云化微服务架构性能测试挑战：
1、微服务架构下服务多，场景调用链复杂、测试过程繁琐，测试周期长，人员投入大
2、被测系统300+微服务和DB、数万接口、数十万SQL，性能测试工作量大，实验室覆盖率低
3、架构升级快，性能波动频繁，日常看护中定位性能波动的根因困难

devops全流程的性能自动化看护框架：
1. alpha阶段：SQL的静态扫描与检查
2. beta阶段：微服务核心接口的性能看护自动化
3. gamma阶段：弹性扩容测试自动化、SQL动态性能质量评估
4. ops阶段：线上性能监控、性能风险挖掘、性能模型感知
质效提升方面：
1. 无人值守的性能测试自动化，实现了压力自动调节、性能瓶颈自动定界、测试报告自动生成等能力。
2. ops阶段：构建了性能恶化风险感知，基于日志模式的性能问题感知等能力

1. 听众可受云化微服务的性能看护框架的启发来制订适合自己的测试架构
2. 听众可借鉴或直接采用微服务框架下的性能自动瓶颈定界等技术来提升测试效率
3. 听众可对线上如何开展性能监控和风险识别少走弯路

内容大纲

听众收益

1. 从Ansible编排概念引入
2. 能力抽象，配置化
3. 测试能力复用
4. 方案选型、框架设计
5. 未来计划，能力生态
6. 开源地址：https://github.com/bilibili/arrange-play