随着软件规模和复杂度的不断增加,软件可靠性也变得越来越重要。一旦软件发生故障失效,在精密制造、智能生产、数据存储等各重要领域中,将可能导致关键系统崩溃、重要数据丢失、核心业务中断、甚至危及生命等灾难性后果。同时,很多失效的预测和防范面临很多挑战,需要专业化和系统性的应对。通过建立和维护高度可靠的软件系统,企业可以在各类风险挑战下,提高客户满意度、降低维护成本、优化运营效率,并在国内外市场竞争中获得差异化优势。本专场专注于分享和讨论与产品、系统或服务可靠性相关的知识和经验。我们邀请您参与到可靠性专业人士的交流中,分享最佳实践,探讨相关问题与挑战的应对技术与解决方案。期待这些积极互动能促进可靠性理念的传播和推广落地,帮助打造更多一流软件产品。
专场:可靠性工程 
专场出品人:金泽锋 
中兴通讯 首席教练
中兴通讯首席教练,无线院软件过程总工,20年研发领域一线开发管理经验,持续关注敏捷精益和嵌入式开发领域的最佳实践,拥有多个大规模项目的转型变革经验。
杨雪
360 平台技术测试部 测试开发专家
2019年加入360作为云业务测试接口人,负责容器云、云计算管理平台等项目质量保证工作。(360技术中台在云计算战略已经持续深耕多年,提供了一系列如分布式计算、分布式存储服务、云服务调度、混合云能力接入、计费及监控报警部署等能力,打造出一套既具虚拟化又具容器与容器云的完成私有化部署的企业级的应用与集群实验行业发布的统一管理平台。

基于此360效能平台部下设的质量工程部建立了一支具有相关技术能力的测试团队,其中涌现出了具备云业务资深测试能力的专家级质量保证人员杨雪这样的优秀人才,其在云服务高可用稳定性测试方面进行了方案设计、工具开发和场景演练的实现与执行,同时也在不断探索云计算领域的测试深度和测试方案,并进行工具能力的建设以对此领域提供跟多的选择测试方案。)

擅长领域:云计算与云服务架构服务端测试,高可用稳定性测试、测试工具与脚本开发
待定
待定
容器云独享集群混沌实验探索
360容器云平台,在实际的容器化改造推动过程中,业务对容器化改造在系统稳定性等方面有一定的担忧,在容器云中,由于各类因素的不确定性,系统会出现不可预测的行为。 业务方缺少对于平台鲁棒性验证方案,没有办法定性定量的评估平台和应用的稳定性,混沌实验已成为一种研究容器云混沌效应的重要手段。混沌实验对为了增强业务上容器的信心,我们以konk的方式为业务提供独享集群进行混沌实验,来验证容器化方案,帮助用户自行评估系统稳定性,增强用户的运维信心。,我们引入混沌实验,输出混沌实验的方案和工具助理独享集群的鲁棒性提升。
360容器管理平台稳定性验证中,我们探索了混沌实验的方案,一方面方便我们进行扩展组件的功能验证,另一方面帮助业务了解容器在异常情景下的表现,整体提高业务上容器的信心。
整体方案主要分以下四部分内容:
1.  我们利用kubeonkube创建独享k8s集群的方式快速为业务容器化提供资源隔离的混沌实验环境,这样我们能够更好地模
极端场景。
2.  由于项目架构的复杂性,云计算故障场景构造的专业性、实验场景的丰富性,使得手工进行混沌实验的成本非常高,只
有解决了这些问题才能提高混沌实验的质量和效率。我们搭建了混沌实验的工具平台,在功能设计上支持多集群的纳管,打通混沌实验平台和被测多集群间的管控通道。
3.  制定混沌实验的测试方案,通过实践演练方案的可行性,将基础的混沌实验场景和方案预置到平台中,关联所需要的故
构造工具和脚本,方便场景的集中控制。同时场景支持单场景的调试,在精细定位和基本能力验证上发挥作用。在集群和场景的基础上,创建混沌实验,创建过程可以支持场景和资源的直接组合,快速生成实验步骤,在实验规划中可以对不同的注入节点和场景进行组合,产生复合场景的实验步骤,实验通过工作流的方式对规划好的一个个场景依次进行自动化的注入、观测、回收。同时支持多个实验的并行运行。最后生成结果报告,展示实验中的结果记录,可以根据系统架构分析和链路跟踪对结果是否需要后续观测进行标注。
4.  如何有效观测是混沌实验的另一个重要问题。在实施效果和集群稳定性观测方面,我们建立容器云从集群到资源各种维
的监控体系。在集群可用性观测方面,容器云作为一个自动运维平台,主要是工程师进行资源创建、更新、发布、释放等操作,本身的流量是比较稀疏的,如果采用流量重放的方案很难在保证流量的覆盖度,因此我们在构造云平台的基础流量的时候,更多的是采用主动全量观测的方式进行,这种方案一方面观测时长可控,保证在一次实验场景中完成全量观测任务。其二观测覆盖可控,保证观测任务能覆盖系统的核心功能,其三,结果可控,观测结果预期稳定,有利于实验结果的判断。在业务稳定性的观测上,建立流量入口稳定性观测方案。
在价值方面:
1. 混沌实验平台在k8s扩展组件的功能和稳定性验证方面发挥作用
2. 在业务接入方面提供了稳定性验证的标准化方案,帮助业务实现稳定性的优化和改造
业务上容器前可参考本方案进行稳定性验证
内容大纲
听众收益
张庆先
中兴通讯 质量教练
曾任系统工程师,项目经理和敏捷改进负责人
长期从事通讯软件研发工作,熟悉软件全生命周期质量管理,近年在大力推进大型通讯软件软件可靠性工程建设

擅长领域:大型通讯软件质量改进
待定
待定
大型通讯软件可靠性工程实践
内外部客户需求和业界技术趋势都对通讯软件的可靠运行提出了新的挑战,如何在复杂应用场景下保证通讯软件的可靠性必将成为企业的核心竞争力。
软件可靠性必须基于整体的工程思路进行,本议题基于经典的Ruan模型,介绍在大型通讯软件中,如何需求分析,设计,开发,验证和评估等各个阶段对软件可靠性方法论的系统思考和具体实践。
提供软件可靠性的系统性方法和实践,启发对可靠性的本质认知,助力复杂软件可靠性建设的不断推进。
内容大纲
听众收益
蔡铭霞
阿里云 高级研发工程师
多年从事中间件及分布式系统高可用架构。现就职于 阿里云-云原生-高可用架构部门,深耕混沌工程领域多年,负责阿里云应用高可用服务(AHAS)的 产品研发,和阿里云可观测(ARMS)的产品研发,开源项目ChaosBlade Maintainer
待定
待定
Chaosblade,系统高可用的最佳路径
系统架构经历了由单机到分布式再到现在的云原生架构的转变,其系统架构变得越来越复杂,整个系统中可能会引入多种中间件、云厂商、不同语言构建的微服务系统等,如何持续保障系统的稳定性和高可用性就需要面对极大的挑战。通过chaosblade实施混沌工程故障注入,有助于构建系统稳定性。
近几年随着混沌工程技术的发展和概念的推广,越来越多的企业也已经加入该领域的建设和完善中。阿里在该领域中有着多年的发展与积累。开源项目chaosblade覆盖了从k8s到容器、系统层再到应用层300多个演练场景,新的版本中更是补充和完善了中间件和云厂商的原子故障能力,能更全面覆盖系统中可能存在的问题。
给大家构建系统稳定性提供一个思路、方法,并提供落实该方法的路径。
内容大纲
听众收益
关注QECon公众号
关注QECon视频号
议题投稿
Speaker@qecon.net    
票务联系
18611377287  马静  
 
媒体合作
13516196409  皮皮
商务合作
15122643988  木子