预防到自愈_测试策略_稳定性工程协同进化-2025北京站_QECon全球软件质量效能大会-橙柚科技

优惠倒计时

8折票抢购中

团购享受更多优惠

北京站 · 10月31-11月1日

上海站 · 9月12-13日

深圳站 · 5月23-24日

专场：预防到自愈：测试策略×稳定性工程协同进化

系统稳定性建设正从被动应急向主动防御范式升级。专场聚焦测试策略与稳定性工程的协同进化，围绕多活演练实战、全环节数字免疫能力建设、金融安全渗透测试创新等话题，结合行业标杆案例，探讨架构韧性设计、全链路风险防控中测试策略的创新应用，为构建前瞻稳定性保障体系、实现故障预防到自愈的闭环提供方法论与实践支撑。

专场出品人：马鑫

京东零售架构师

拥有10年以上互联网及传统行业丰富测试经验，2010年底入职京东，一直专注于业务质量测试、自动化测试、性能测试以及持续集成等多个领域；现在负责京东零售618/双11以及大型项目的压测推动与实施、前沿压测技术的探索与实践，以及带领团队构建适用于京东的分布式压测平台；同时也在探索研发效能提升的工程实践与平台的建设。

苗悦莹

bilibili 高级测试开发工程师

2021年加入哔哩哔哩，目前担任OGV业务的测试负责人，涵盖ogv内容的排播点映能力、画质权益、品类聚合页等，保障业务迭代质量，达成交付的同时建立健全业务线的质量体系。有丰富的业务质量保障、稳定性治理、测试效能平台工具开发经验。

待定

多活演练的实战与模拟

本议题聚焦：什么是服务多活建设？为什么做多活演练？如何进行实战演练？实战演练的方案和流程，缺点（项目周期长、人力浩荡、验证时间窗短、case阻塞率和问题定位）？按季度的实战执行对于快速迭代的业务来说，保障频次不够，如何在日常保障多活有效性，通过部署线上染色环境，圈选核心链路注入断网故障模拟，结合自动化演练降低多活问题发现成本，前置披露问题并解决，使真实演练更高效。同时归类总结模拟自动化演练可发现的问题场景，前置披露并解决70%的多活问题，但由于模拟测试不可避免的局限性，仍有30%的问题类型需要在实战阶段发现。建设高频模拟结合低频实战的模式，保障业务多活的高可用性。
1. 当前业务面临的痛点：
1.1 业务连续性要求极高
1.2 单地域/单机房架构风险集中
1.3 传统灾备演练成本高、周期长、效果差，无法满足敏捷的业务需求
2. 思考与方向
2.1 从“灾备”到“多活”：业务流量在任何故障场景下可平滑切换，用户体验无损或体验降级可控
2.2 从“手动”到“自动”：建立常态化、自动化的演练机制，将稳定性验证融入研发流程
2.3 从“假设”到“实证”：通过真实流量演练，暴露真实问题
2.4 核心目标：通过演练，最终实现“敢故障、能发现、快恢复、可复盘”的韧性系统

内容大纲
1. 多活演练的目的
1.1 多活架构与演练概述：多活架构的本质与价值，演练的重要性
1.2 多活演练的核心目标与挑战：验证架构可靠性、团队应急能力和完善监控预警体系
1.3 多活的技术挑战与问题：数据一致性挑战、流量调度复杂性、演练效率瓶颈等
2. 真实演练的方案
2.1 演练规划与准备：明确演练范围和目标，确定业务系统、基础设施组建、关键技术指标，根据业务特点设计核心测试

用例
2.2 演练内容与流程：明确测试同学的职责和流程，如何在有限的时间内完成测试用例
3. 前置模拟方案
3.1 模拟环境搭建：如何仿真搭建问题，在不影响真实数据的情况下验证测试用例，考虑环境隔离与控制
3.2 故障注入与模拟：确定业务稳定性、确定验证手段有效性，通过自动化/流水线演练执行
4. 自动化演练建设
4.1 整体流程设计：前置校验（自动）->注入故障（人工）->故障表现（自动）->故障恢复（人工）->注入故障（自

动），通过整套流程设计，验证数据一致性，功能是否完全恢复正常
4.2 技术选型与抉择：选择自动化测试+人工的组合模式的原因，专项演练用例的设计与实现（用例的目的为了验证特

定故障下的状态），用例指标的量化（响应时间、成功率等）
4.3 遇到的“坑”与精细化处理：流程层面人工操作和环境清理，技术层面是否是真的执行成功，以及case的稳定性保证。
5. 模拟演练暴露问题&收益情况
5.1 暴露问题：
5.1.1 配置问题：强制读主配置-视频无法播放，原因是剧集付费类型服务缓存失效会强制读主库，导致ogv播放大部

分case失败。redis跨机房访问-品类聚合页无数据展示，核心网关接口调用超时

5.1.2 服务无多活节点：核心服务的依赖服务无004节点，通过模拟前置暴露
5.1.3 业务逻辑问题：会员投放付费资源位展示异常，长短评页面展示异常
5.1.4 流程问题：前置sop准备，包括用例集，APP包准备等
5.2 量化收益：效率收益（人力投入/演练时长/演练频率）；质量收益（问题发现量等）
6. 模拟方案的局限性
6.1 接口级联超时无法还原，模拟仅针对核心服务注入断网，无法做到全链路拓扑断网的仿真
6.2 测试数据的冷热选择，决定是否触发缓存回源场景，可以暴露跨机房访问问题，模拟时需注意
6.3 人性因素与应急响应：演练的心理压力与真实故障不同

听众收益
1. 一套可复用的方法论体系：获得从0到1构建多活演练体系的清晰路径（设计原则、阶段划分、场景设计），避免盲目开始和踩坑。
2. 具体的技术选型与避坑指南：了解在数据一致性、流量调度、故障注入等关键技术点的选型思考、实践方案以及我们遇到的具体“坑”和填坑方案，节省大量调研和试错成本。
3. 多活结合自动化建设的思路：了解如何利用UI自动化和接口自动化提高测试效率
4. 对极限边界的认知：了解哪些Case无法通过仿真完全覆盖，以及相应的架构级应对策略，帮助您更全面地评估系统风险，设计更健壮的架构。

张文鹏

争锋科技数字免疫研究中心负责人

南京争锋信息科技有限公司数字免疫研究中心负责人
拥有逾十年IT系统运维产品研发经验，深耕企业级信息系统运行保障领域。现任南京争锋数字免疫研究中心负责人，专注于企业级数字免疫系统建设的体系化研究。

待定

构建风险免疫屏障：全环节数字免疫能力建设实践

随着数字化转型深入，业务系统复杂度激增，研发、测试、运维各环节的风险积累，成为业务连续性的重大威胁。Gartner提出的数字免疫系统（Digital Immune System, DIS）通过混沌工程、可观测性、AI增强测试等技术的有机融合，构建贯穿系统全生命周期的风险免疫屏障，实现风险主动识别、快速响应和自愈能力。本次演讲以“构建风险免疫屏障”为核心，分享如何将数字免疫理念落地为可实践的体系：从研发阶段的软件供应链安全加固，到测试环节的AI驱动精准验证，再到运维侧基于SRE和自修复技术的主动防御，并结合混沌工程模拟极端故障场景，最终形成覆盖全流程的免疫闭环。通过真实案例解析，展示如何通过技术联动降低系统宕机风险，为高可用性系统建设提供新思路。

内容大纲
1. 背景与挑战
2. 数字免疫系统的核心要素
3. 全流程免疫能力建设路径
4. 实践案例与效果
5. 未来展望

陈伊

成方金科测试效能团队负责人

负责成方金科内部信息化统筹建设及测试工具体系规划和架构设计工作。曾作为演讲嘉宾参加2024年QECon、2023年QECon（并获得明星讲师）、2022年Top100等行业大会的主题演讲，对测试平台、工具、框架的工程建设和测试效能提升方面有丰富的实践经验。

待定

与金融业务融合的安全渗透测试创新实践

网络安全作为国家安全观的重要组成部分，对于金融行业的安全稳健运行至关重要。当前，金融业面临着金融安全复合型人才不足的问题，难以支撑企业在敏捷转型后海量的、迭代式的安全检测工作，阻碍了安全左移的推进；安全渗透测试通常是脱离业务的抽样式测试，欠缺深入业务场景的入侵测试与防御能力；行业安全研发测试体系尚不完善，功能、安全测试工具缺乏统一全局化设计与整合，安全测试误报率、漏报率较高。因此，深化与金融业务融合发展的网络安全应用创新，对于推动金融行业的数字化转型具有重要意义。

内容大纲
通过自研基于接口测试、流量回放等新型安全渗透测试工具体系，创新安全渗透测试方法，实现“渗透测试”和“业务测试”同工具、同流程并行开展，降低渗透测试的专业技术门槛，推动实现业务测试人员自助完成与专业安全人员等效的安全渗透测试，实现了渗透测试自主化、业务场景化、攻击定制化，推动服务型安全测试体系落地见效。
1. 基于功能测试延展的自动化渗透测试，构造安全测试新品类
区别于传统渗透测试工具的“探测”机制，利用自研功能测试平台CFLight，适配实现自动化安全渗透测试，使业务测试与安全测试有效渗透黏合，支持自动化“全量”覆盖系统受攻击入口，智能生成数万条渗透测试用例，全方位模拟黑客安全攻击类型，CFLight将渗透测试自动化覆盖率较行业水平提升一倍，并有效降低安全测试工具的问题漏报率与误报率。
2. 以流量回放驱动交互式渗透测试，满足安全领域的业技融合
利用自研的日志流量回放工具LogReplay与通用交互式安全测试工具IAST相结合，改变传统渗透测试脱离业务的抽样式测试，实现以HTTP流量回放驱动的渗透测试，将流量数据实时捕获、分析挖掘，实现深度模拟业务场景的精确漏洞检测，支持测试阶段业务场景的高度还原，有效提高业务测试场景的覆盖率。在相同漏洞检出率的前提下，漏洞检测效率较传统检测方式提升数十倍。
3. 打造完整DevSecOps链条，推进安全渗透测试左移落地见效
构建基于DevSecOps自动化渗透测试工具链，通过将业务测试与安全渗透测试自动化有效融合，依托流水线可插拔和动态编排能力，实现了功能测试与安全渗透测试的一点链入，集成源码安全检测、敏感信息检测、第三方组件安全检测、抗反编译安全加固、主机安全检测、交互式安全检测、容器安全检测、渗透检测、安全资产收集、安全性评价等14个自动化安全能力节点，打通软件研发端到端的安全价值交付链路。在功能测试阶段实现常态化、持续性的安全渗透测试，同时解决了行业中渗透测试类工具入链难、多类型工具维护成本大等问题，确保了安全渗透测试在DevSecOps测试左移中的实效性和可见性。

听众收益
介绍了与金融业务融合的全新型安全渗透测试解法与实践，经实践统计，大幅提升了渗透测试自动化率、漏洞检测效率，有效降低问题漏报率与误报率，支撑公司级服务型研发测试安全体系，为行业中安全渗透领域提供了新的思路和方向。