专场:AI时代下的运维与SRE变革
在数字化系统规模持续扩张、业务复杂度不断攀升的当下,运维与 SRE 正从传统被动响应、人工值守,迈向自动化、智能化、可观测全域协同的全新阶段。以大模型、AIOps 为代表的 AI 技术深度渗透,正在重构故障排查、容量规划、告警治理、应急响应等核心工作流程,既带来了效率跃升、风险前置的全新机遇,也提出了技术融合、能力升级的全新挑战。
本次技术分享会,我们聚焦AI 如何重塑运维与 SRE 工作范式,从实际场景落地、工具实践应用、能力体系构建、未来发展趋势等多个维度,拆解 AI 在智能告警、根因分析、自动化运维、稳定性保障中的真实价值,探讨传统运维人向智能运维、可靠性工程师转型的关键路径。无论你是深耕一线的运维工程师、负责系统稳定性的 SRE,还是关注技术演进的研发与架构师,都能在这里碰撞思路、交流经验,共同探索 AI 赋能下,更高效、更可靠、更具前瞻性的运维新未来。
专场出品人:党受辉
腾讯 IEG技术运营部助理总经理  信通院云大所稳定性保障实验室成员 
腾讯IEG运维&SRE部门负责人,负责游戏业务的研发过程支持(CI)、测试运维环境控制(CD)、生产运营阶段的可靠性保障(CO)、资源管控和算力调度及运维安全等中台服务,负责“腾讯蓝鲸”的设计研发及运营;参与编写信通院SRE-Elite实践白皮书
邹宇轩
快手 高级大数据SRE工程师
任职快手大数据SRE团队高级大数据SRE工程师,深度负责与参与了快手大数据多个计算、存储引擎的大规模集群稳定性保障和效能提升工作。对大数据运维生态建设和AI工具建设都有一定心得。
待定
待定
从告警到自愈:大模型驱动的大数据SRE智能运维体系实践
议题背景:
快手大数据平台承载着 200+ClickHouse集群的运维保障工作,日均处理海量告警。传统模式下,SRE工程师需要人工查看告警、登录多个系统采集数据、凭经验定位根因、手工执行修复操作,单次故障处理耗时 15-60分钟,且严重依赖个人经验,知识难以沉淀和复用。随着集群规模增长,"人盯告警"模式的效率瓶颈和知识断层问题日益突出。我们思考:能否用大模型+多智能体架构,将SRE的诊断经验编码为可执行的AI工作流,构建覆盖"告警根因分析一交互式诊断一SQL优化一全集群巡检自愈执行"全链路的智能运维闭环?本次分享将介绍我们在这一方向上的系统化实践。

内容大纲:
1. 大数据SRE运维的挑战与破局思路
    1.1 170+ ClickHouse集群运维现状:三种架构类型(存算分离KFS、物理一体机、KwaiCH/HDFS)带来的复杂度
    1.2 传统运维的三大痛点:告警疲劳、经验孤岛、修复滞后
    1.3 破局思路:从"人找问题"到"AI闭环"一一全链路智能运维体系设计
2. 告警根因分析(RCA):10秒级自动定位
    2.1 编排式RCA架构:并行数据采集Prompt模板注入Qwen3-235B单轮推理
    2.2六大告警场景覆盖:可用性下降、Kafka导入延迟、集群完整性、进程异常等
    2.3 Prompt即规约:700+ClickHouse错误码+时序关联规则内嵌Prompt,将LLM变成"概率规则引擎"
    2.4 双通道策略:编排式快速通道(<10s,面向SRE)与 Agent 式深度分析(1-3min,面向业务用户)
3. 交互式诊断Agent:20个MCP工具的智能调度
    3.1 MCP工具体系设计:诊断、优化、存储三大类20个工具的统一注册与管理
    3.2场景驱动的Agent调度脑:4类场景(集群诊断/慢查询分析/用户SQL优化/存储容量对比)的自动识别与工作流编排
    3.3 知识库工程:诊断 KB(现象一排查路径映射)+优化KB(SQL改写规则)+共享基础知识的分层复用
4. 自愈执行引擎:从组织理论到多智能体Pipeline
    4.1 核心创新一一五阶段 Agent Pipeline:分诊(Triage)协调(Coordinator)安全审查(Security)执行(Executor)验证(Verifier)
    4.2 组织理论映射Agent 设计:Conway定律(Pipeline拓扑对齐团队结构)、管理幅度5±2(1人5Agent50+工具的两级
          管理)、OKR框架(Mission.goal=O,success_criteria=KR)
    4.3 Mission驱动而非Step驱动:Skill是目标文档而非步骤模板,Agent自主决定执行策略
    4.4 三层安全纵深:Prompt约束层 + Guardrails代码层(16种危险命令拦截)+Security Agent 审查层
    4.5 Human-in-the-Loop:KIM审批卡片实现 on-call 工程师逐步确认,拒绝即终止
5. AI自生成Skill与持续进化
    5.1 三级 Skil匹配策略:规则快速通道(置信度≥0.95跳过AI)AI语义匹配AI自动生成新 Skil
    5.2 历史执行注入Few-Shot学习:将过往成功/失败案例作为上下文,提升执行质量
    5.3 从MVP到智能体平台的演进路径:单体Agent Pipeline专业化中台化(50+工具)- Mesh 自组织(100+ 工具)
6. 全集群巡检与SQL优化:主动发现问题
    6.1 五维健康模型:集群、写入、查询、存储、副本的定期巡检与健康评分
    6.2 SQL优化七件套;列类型审计、执行计划分析、Mutation监控、查询改写建议等
    6.3 巡检与RCA的闭环联动:巡检发现风险一自动生成工单一触发RCA验证一必要时进入自愈流程
7. 效果与展望
    7.1 量化收益:工具开发效率提升 80%、知识维护成本降低60%、新 Agent上线从1周缩短至1天
    7.2 实践总结:Prompt工程的可维护性、Agent人格化设计的意外收益、安全左移的必要性
    7.3 未来方向:异常检测算法引入、LLM对话式根因分析、SRE反馈闭环持续学习

听众收益:
架构蓝图可借鉴:获得一套经生产验证的"告警一RCA诊断一优化一巡检一自愈"全链路AIOps架构设计,可直接迁移到自身的数据库/大数据运维场景多智能体实践
少走弯路:了解五阶段 Agent Pipeline的设计取舍(为什么不是单体 Agent?为什么安全是独立阶段?),以及组织理论如何指导Agent架构决策Prompt工程方法论
可复用:学习如何将领域知识(700+错误码、诊断路径、时序规则)系统化地编码进Prompt,实现"Prompt即规约"MCP工具体系建设
启发:20个MCP工具从设计、版本兼容、安全防护到平台化注册的全流程经验
安全设计思路直接采用:三层纵深防御(Prompt约束+代码 Guardrails+Agent审查)+Human-in-the-Loop审批的落地方案,适用于任何需要 AI执行高风险操作的场景
王晓桃
淘天集团 高级测试开发工程师
淘天集团用户&内容质量高级测试开发工程师,目前主要负责用增团队的用增业务AI化项目的Multi-Agent应用的质量评测&对抗性样本测试、业务配置系统变更AI校验、AIcoding自动化测试等Agent驱动的智能化测试,毕业前后就职于腾讯、淘天公司。
待定
待定
Multi-Agent协同驱动的配置变更AI智能校验平台实践:
从"人防"到"智控"的质量范式升级
议题背景:
在业务高速迭代下,配置变更是功能上线的“加速器”,却也成为稳定性的“阿喀琉斯之踵”。FY25 数据显示,配置类故障占比达 24.8%,根因集中于内容错误(29.5%)与验收盲区(34.1%)。传统人工审批面临“影响面不可视、风险依赖经验、验收覆盖不足”的三重困境。为此,我们构建了"1 总控 +8 子 Agent"的协同校验体系,首创“感知 - 推理 - 执行 - 决策”端到端闭环。通过 LLM 语义推理与自动化真机验证的混合驱动,实现风险识别从分钟级降至秒级(120s→10s),人工 Review 成本降低 75%,拦截率提升至 75%,成功将配置风控从“被动救火”升级为“主动防御”。

内容大纲:
1. 破局:配置变更的“不可能三角”与 AI 化契机
    1.1 风险态势复盘:基于 FY25 真实故障数据的根因深挖(内容错误 vs 流程缺失)
    1.2 传统模式瓶颈:解构人工审批的“黑盒效应”——为何规则引擎失效而专家经验难复制?
    1.3 技术选型决策:为何选择 Multi-Agent?——在灵活性(LLM)与确定性(Rule)之间寻找最优解
2. 架构:Multi-Agent 协同编排引擎的设计哲学
    2.1 总体设计原则:“中心化大脑 + 边缘嵌入式”——无感接入与能力原生化
    2.2 核心架构全景:
          2.2.1 感知层:基于事件驱动的异构配置中心统一接入(MetaQ/HSF/SDK)
          2.2.2 决策层(大脑):"1 总控 +8 子 Agent"的动态编排机制
          2.2.3 执行层:Diff 驱动的智能用例生成与云真机集群调度
          2.2.4 反馈层:全链路可观测性与向量知识库闭环
    2.3 协同机制详解:
          2.3.1 并行侦察:语义、静态、专家经验、动态、历史五维并发扫描
          2.3.2 串行深潜:基于依赖关系的服务端联动与真机自动化验证
          2.3.3 加权决策:多维评分模型(≥90 放行/60-89 人机共决/<60 熔断)
3. 实战:核心技术攻坚与工程避坑指南
    3.1 非结构化配置解析:突破正则限制,基于 AST 与路径语义表达式的开关逻辑还原
    3.2 LLM 稳定性治理:
    3.3 防幻觉策略:Schema 强约束 + RAG 知识增强 + 自一致性校验(Self-Consistency)
    3.4 冷启动方案:小样本学习(Few-Shot)与专家规则库的混合引导
    3.5 多模态自动化验证:
          3.5.1 智能规划:LLM Planner 驱动 Playwright/Appium 生成操作链
          3.5.2 视觉回归:基于多模态模型的 UI 差异比对与异常标注
          3.5.3 异构系统集成:Skyline/MT/试金石等多平台差异化适配的 SDK 轻量级注入方案
4. 成效:量化收益与典型拦截案例
    4.1 质量效能双升:
          4.1.1 拦截率:30% → 75%(覆盖流量异常、灰度违规等深层风险)
          4.1.2 效率跃迁:接入成本 2 周→2 小时,验收耗时 4h→10min
          4.1.3 运维减负:规则维护成本降低 80%,误报率控制在合理区间
   4.2 真实战役复盘:
          4.2.1 案例 A:某营销活动配置逻辑死循环的提前阻断
          4.2.2 案例 B:跨版本配置不一致导致的隐性 Bug 捕获
    4.3 演进路线图:从单点校验到配置血缘图谱构建的未来规划
5. 总结:可复用的 AI 质检范式
    5.1 架构方法论:Multi-Agent 在垂直领域的编排模式总结
    5.2 落地关键点:如何平衡 AI 的不确定性与生产环境的零容忍
    5.3 行业启示:测试左移在 AI 时代的新内涵——从“执行者”到“评估者”

听众收益:
1. 掌握 Multi-Agent 复杂任务编排的落地范式:了解如何设计"1总控 + N子Agent"的协同调度机制,包括并行/串行编排策略、加权评分决策模型和一票否决机制,可直接迁移至其他需要多维度AI校验的业务场景。
2. 获取"LLM+ 规则”混合引擎的工程化解决方案:直面生产环境挑战,分享如何解决 LLM 幻觉、输出不稳定、冷启动困难等实际问题,提供 Schema 约束、RAG 增强及异步重试等经过验证的防御策略。
3. 学习"中心化引擎 + 嵌入式集成"的平台化能力输出模式:理解如何在不改变业务方现有操作习惯的前提下,通过轻量SDK和Web Component组件将AI校验能力无感注入多个异构配置平台,实现"能力集中治理、体验原生融合",实现测试左移与质量门禁的建设路径。
4. 收获配置变更质量保障的端到端闭环设计思路:从变更感知、AI预校验、自动化执行验证到灰度观测的全链路实践经验,为团队构建自身的配置变更风控体系提供可落地的参考方案。
敬请期待
......
.....
待定
待定
敬请期待
....
关注QECon公众号
关注QECon视频号
议题投稿 
lijie@qecon.net  
票务联系 
18649077637  Lily 
 
媒体合作
135-1619-6409  皮皮
商务合作
151-2264-3988  木子
购票咨询
18649077637  Lily
服务总线
400-183-9980  
电话咨询
联系电话:
18649077637  Lily