专场:面向未来的系统稳定性
在云原生与分布式架构深度演进的背景下,系统稳定性建设正经历从被动应急向主动防御的范式升级。本专场聚焦智能化技术驱动下的稳定性工程演进,探讨架构韧性设计、全链路风险防控、智能运维体系构建等核心方向,同时关注大模型、AIOps等新技术与传统稳定性保障体系的融合创新。通过行业标杆案例解析,展现故障预防、快速定位、自适应恢复等关键能力的提升路径,为构建具备前瞻性的稳定性保障体系提供方法论支撑。
专场出品人:刘昊 
bilibili 基础架构部资深研发工程师
哔哩哔哩SRE平台工程团队负责人,专注于技术风险领域的工程化落地,在应急响应、变更防控、混沌工程、风险治理和运维数据资产等方面有丰富经验。
戴杰超
王豪杰
bilibili 资深测试开发工程师
哔哩哔哩直播质量团队资深测试开发工程师,目前主要负责哔哩哔哩直播系统基础服务的端到端稳定性工作,负责直播开播于观看的全链路的测试,稳定性验证, 故障演练,自动化测试,性能自动化测试等工作。毕业后曾就职于阿里巴巴和叮咚买菜,从事测试开发工作
待定
待定
全链路直播质量保障:
从端到端稳定性到基于AI的音视频保障
直播业务爆发式增长下,稳定性问题已从单一的音视频卡顿演变为跨端、云、网的全局性挑战:突发流量导致CDN节点过载、边缘设备性能劣化引发连锁故障,异常输入,服务端异常故障等场景引发的系统稳定可用性问题
痛点包括:CDN节点故障难以主动预防、音画同步偏差难以实时量化、AI异常检测落地成本高、弱网模拟真实性不足、用户感知卡顿等无法度量、大型活动稳定性要求高且效率要求高等。本次分享将展示如何通过端到端自动化工具链、AI算法创新和主动式故障演练等方式,构建覆盖"推流-传输-播放-体验"全链路的直播稳定性保障体系,实现问题分钟级定位、故障主动拦截和用户体验可度量。

内容大纲
直播质量保障的三大技术突破
1. 客户端端到端稳定性保障
    1.1 直播大前端性能测试体系:全方位监控客户端迭代性能劣化
    1.2 首帧耗时检测:解码器级埋点+播放器图像识别
2. 业务、云服务、cdn的全链路稳定性保障
    2.1 RTC时延矩阵:端到端/分段时延的可视化拓扑分析
    2.2 CDN节点智能巡检:智能调度巡检实现10分钟内故障召回
    2.3 故障注入演练平台:从业务到云服务到cdn,全链路进行故障演练,同时支持业务及视频云200+异常场景的自动化混沌工程及断网演练
    2.4 自研推流测试平台:支持时间戳回退、媒体文件丢失、包乱序等多样化推流场景
3. AI驱动的全链路音视频质量检测
    3.1 音画同步检测:基于时间戳对齐的毫秒级偏差定位技术
    3.2 音频质量双引擎:NISQA深度学习模型+传统MOS分融合评估
    3.3 卡顿检测模型:建立不同品类的卡顿检测评估能力
    3.4 视频VQA :结合PSNR、SSIM客观打分与用户主观评测的画质横评
    3.5 绿屏/花屏检测:轻量化MobileNet检测模型在智能巡检中应用

特色亮点
1. 首帧耗时检测精度提升至±16ms
2. 自研推流测试平台模拟线上真实case复现
3. CDN故障发现耗时从小时级缩短至2分钟

听众收益
1. 获得覆盖推流、传输、播放全链路的保障稳定性经验
2. 可直接复用的工具链架构(开源组件选型+自研模块设计)
3. 学习混沌工程在视频云场景的创新应用范式
熊林涛
中免日上 测试开发专家
现任中免日上测试开发专家,目前主要负责精准测试平台、压测平台和LLM等相关内容;QECon2022精准测试主题明星讲师,曾任职于德邦、哔哩哔哩等公司,研究领域涉及自动化、性能、精准、AI测试等。
待定
待定
精准与压测:业务变更影响范围的常态化性能评估与实践
在现代软件开发中,业务变更频繁且复杂,传统的测试和压测方法往往难以精准评估变更的影响范围,导致潜在风险无法被及时发现。同时,随着系统规模的扩大,手动设计和执行压测场景的效率低下,难以满足快速迭代的需求。为了解决这些问题,我们结合精准测试和接口压测平台,构建了一套基于业务变更影响范围的常态化评估体系。通过精准测试分析代码变更的影响范围,并自动针对性的对相关场景进行压测,实现了从变更分析到性能验证的全流程自动化。这一方案不仅提升了测试覆盖率,还显著增强了系统的稳定性和研发效率,为业务变更提供了可靠的技术保障。

内容大纲
1. 引言
    1.1 背景与挑战
    1.2 目标与价值
2. 解决方案
    2.1 精准测试
          2.1.1 用例-代码双向追踪
          2.1.2代码变更影响链路
    2.2 压测平台功能大纲
    2.3 devops流水线
          2.3.1 业务提审
          2.3.2 精准测试调用链路分析获取影响范围
          2.3.3 压测平台相关场景压测实施
          2.3.4 质量门禁
3. 精准测试建设
    3.1 静态扫描-调用链路采集
    3.2 跨服务链路打通
    3.3 图谱存储
    3.4 变更代码分析-影响范围推荐
4. 压测平台建设
   4.1 系统架构 (0到1纯自研,计划开源)
   4.2 生产流量模型评估
   4.3 流量场景划分
   4.4 接口-场景绑定
   4.5 数据流转与集成:自动施压与质量门禁建设
5. 成果与收益
   5.1 功能验收范围
   5.2 基础单元的性能自检
6. 未来展望
   6.1  生产环境部署节点自动评估
   6.2 llm性能问题分析与改进方案推荐
   6.3 llm自动调整与性能优化

听众收益
1. 了解golang体系下精准测试的实践思路,技术细节
2. 获取百万RPS级的开源版压测平台(含源码)
3. 如何做生产环境的性能评估,如何在企业质量门禁流水线,接入变更影响模块的自动压测&性能评估
尚玉飞
蚂蚁集团  SRE技术专家
蚂蚁支付宝内容稳定性负责人、蚂蚁SRE性能容量架构师;
先后参与过蚂蚁双11、蚂蚁新春红包五福、杭州消费券秒杀保障、杭州亚运会保障等大促保障专项等活动并担任相关SRE负责人。
待定
待定
蚂蚁技术风险SRE在容量层面实践
性能容量课题一直是SRE层面不可避免的话题,SRE是如何在日常+活动资源进行实践的,将费事费力的容量转换为自动化,将性能优化转换为资源供给,是SRE在性能容量领域永恒的话题,特别地SRE在AI时代下如何做好性能容量,这将是后续几年探索的重要方向。

内容大纲
1. 蚂蚁性能容量的发展历程
2. 蚂蚁日常性能容量历程
    2.1 资源申请容量规范
    2.2 日常资源容量能力容量优化
3. 蚂蚁大促性能容量发展
    3.1 资源规划
    3.2 大促容量评估
    3.3 资源供给历程
4. AI时代下性能容量的未来展望

听众收益
了解蚂蚁当前容量保障现状,以及蚂蚁SRE在容量层面的探索
关注QECon公众号
关注QECon视频号
议题投稿 
lijie@qecon.net  
票务联系 
159-0126-5561  小娟
 
媒体合作
135-1619-6409  皮皮
商务合作
151-2264-3988  木子
购票咨询
15901265561  小娟         
服务总线
400-183-9980