专场:AI时代下的运维与SRE变革
在数字化系统规模持续扩张、业务复杂度不断攀升的当下,运维与 SRE 正从传统被动响应、人工值守,迈向自动化、智能化、可观测全域协同的全新阶段。以大模型、AIOps 为代表的 AI 技术深度渗透,正在重构故障排查、容量规划、告警治理、应急响应等核心工作流程,既带来了效率跃升、风险前置的全新机遇,也提出了技术融合、能力升级的全新挑战。
本次技术分享会,我们聚焦AI 如何重塑运维与 SRE 工作范式,从实际场景落地、工具实践应用、能力体系构建、未来发展趋势等多个维度,拆解 AI 在智能告警、根因分析、自动化运维、稳定性保障中的真实价值,探讨传统运维人向智能运维、可靠性工程师转型的关键路径。无论你是深耕一线的运维工程师、负责系统稳定性的 SRE,还是关注技术演进的研发与架构师,都能在这里碰撞思路、交流经验,共同探索 AI 赋能下,更高效、更可靠、更具前瞻性的运维新未来。
专场出品人:党受辉
腾讯 IEG技术运营部助理总经理  信通院云大所稳定性保障实验室成员 
腾讯IEG运维&SRE部门负责人,负责游戏业务的研发过程支持(CI)、测试运维环境控制(CD)、生产运营阶段的可靠性保障(CO)、资源管控和算力调度及运维安全等中台服务,负责“腾讯蓝鲸”的设计研发及运营;参与编写信通院SRE-Elite实践白皮书
邹宇轩
快手 高级大数据SRE工程师
任职快手大数据SRE团队高级大数据SRE工程师,深度负责与参与了快手大数据多个计算、存储引擎的大规模集群稳定性保障和效能提升工作。对大数据运维生态建设和AI工具建设都有一定心得。
待定
待定
从告警到自愈:大模型驱动的大数据SRE智能运维体系实践
议题背景:
快手大数据平台承载着 200+ClickHouse集群的运维保障工作,日均处理海量告警。传统模式下,SRE工程师需要人工查看告警、登录多个系统采集数据、凭经验定位根因、手工执行修复操作,单次故障处理耗时 15-60分钟,且严重依赖个人经验,知识难以沉淀和复用。随着集群规模增长,"人盯告警"模式的效率瓶颈和知识断层问题日益突出。我们思考:能否用大模型+多智能体架构,将SRE的诊断经验编码为可执行的AI工作流,构建覆盖"告警根因分析一交互式诊断一SQL优化一全集群巡检自愈执行"全链路的智能运维闭环?本次分享将介绍我们在这一方向上的系统化实践。

内容大纲:
1. 大数据SRE运维的挑战与破局思路
    1.1 170+ ClickHouse集群运维现状:三种架构类型(存算分离KFS、物理一体机、KwaiCH/HDFS)带来的复杂度
    1.2 传统运维的三大痛点:告警疲劳、经验孤岛、修复滞后
    1.3 破局思路:从"人找问题"到"AI闭环"一一全链路智能运维体系设计
2. 告警根因分析(RCA):10秒级自动定位
    2.1 编排式RCA架构:并行数据采集Prompt模板注入Qwen3-235B单轮推理
    2.2六大告警场景覆盖:可用性下降、Kafka导入延迟、集群完整性、进程异常等
    2.3 Prompt即规约:700+ClickHouse错误码+时序关联规则内嵌Prompt,将LLM变成"概率规则引擎"
    2.4 双通道策略:编排式快速通道(<10s,面向SRE)与 Agent 式深度分析(1-3min,面向业务用户)
3. 交互式诊断Agent:20个MCP工具的智能调度
    3.1 MCP工具体系设计:诊断、优化、存储三大类20个工具的统一注册与管理
    3.2场景驱动的Agent调度脑:4类场景(集群诊断/慢查询分析/用户SQL优化/存储容量对比)的自动识别与工作流编排
    3.3 知识库工程:诊断 KB(现象一排查路径映射)+优化KB(SQL改写规则)+共享基础知识的分层复用
4. 自愈执行引擎:从组织理论到多智能体Pipeline
    4.1 核心创新一一五阶段 Agent Pipeline:分诊(Triage)协调(Coordinator)安全审查(Security)执行(Executor)验证(Verifier)
    4.2 组织理论映射Agent 设计:Conway定律(Pipeline拓扑对齐团队结构)、管理幅度5±2(1人5Agent50+工具的两级
          管理)、OKR框架(Mission.goal=O,success_criteria=KR)
    4.3 Mission驱动而非Step驱动:Skill是目标文档而非步骤模板,Agent自主决定执行策略
    4.4 三层安全纵深:Prompt约束层 + Guardrails代码层(16种危险命令拦截)+Security Agent 审查层
    4.5 Human-in-the-Loop:KIM审批卡片实现 on-call 工程师逐步确认,拒绝即终止
5. AI自生成Skill与持续进化
    5.1 三级 Skill匹配策略:规则快速通道(置信度≥0.95跳过AI)AI语义匹配AI自动生成新 Skill
    5.2 历史执行注入Few-Shot学习:将过往成功/失败案例作为上下文,提升执行质量
    5.3 从MVP到智能体平台的演进路径:单体Agent Pipeline专业化中台化(50+工具)- Mesh 自组织(100+ 工具)
6. 全集群巡检与SQL优化:主动发现问题
    6.1 五维健康模型:集群、写入、查询、存储、副本的定期巡检与健康评分
    6.2 SQL优化七件套;列类型审计、执行计划分析、Mutation监控、查询改写建议等
    6.3 巡检与RCA的闭环联动:巡检发现风险一自动生成工单一触发RCA验证一必要时进入自愈流程
7. 效果与展望
    7.1 量化收益:工具开发效率提升 80%、知识维护成本降低60%、新 Agent上线从1周缩短至1天
    7.2 实践总结:Prompt工程的可维护性、Agent人格化设计的意外收益、安全左移的必要性
    7.3 未来方向:异常检测算法引入、LLM对话式根因分析、SRE反馈闭环持续学习

听众收益:
架构蓝图可借鉴:获得一套经生产验证的"告警一RCA诊断一优化一巡检一自愈"全链路AIOps架构设计,可直接迁移到自身的数据库/大数据运维场景多智能体实践
少走弯路:了解五阶段 Agent Pipeline的设计取舍(为什么不是单体 Agent?为什么安全是独立阶段?),以及组织理论如何指导Agent架构决策Prompt工程方法论
可复用:学习如何将领域知识(700+错误码、诊断路径、时序规则)系统化地编码进Prompt,实现"Prompt即规约"MCP工具体系建设
启发:20个MCP工具从设计、版本兼容、安全防护到平台化注册的全流程经验
安全设计思路直接采用:三层纵深防御(Prompt约束+代码 Guardrails+Agent审查)+Human-in-the-Loop审批的落地方案,适用于任何需要 AI执行高风险操作的场景
梁凤明
腾讯 IEG 国内发行游戏SRE负责人
SRE技术专家
腾讯IEG国内发行游戏SRE负责人,SRE技术专家。2012年加入腾讯,参与开发多款蓝鲸SaaS运维工具和辅助运营工具,同时负责多款大型头部自研和代理业务的运营规划工作,先后在业务版本质量、用户体验等维度推动专项解决方案落地,主导腾讯游戏版本管理平台和游戏体验管理平台等产品的开发和产品设计,助力业务成功。个人擅长海量业务全生命周期的服务规划、云原生技术,目前专注于腾讯游戏的SRE能力体系建设,特别是AI Agent 在SRE 场景的规模化落地
待定
待定
AI-Agent 重塑腾讯游戏质效提升的SRE实践
议题背景:
SRE AI Agent实践的痛点如何解决:
1. SRE AI投入价值量化比较困难,工作比较复杂多元,投入方向不明确,AI投入产出比难以评估
2. 行业AI案例多为通用场景比如编程开发为主,SRE 领域AI Agent建设指导不足,行业内SRE团队AI技能储备不足,需要建立复合型能力培养体系
3. SRE 场景数据分散,数据格式不统一,知识管理和沉淀困难,工具和流程各异,规模化管理成本高
4. SRE 要重点保证业务稳定性和安全性为第一原则,如何在场景实践上减少AI操作幻觉,同时兼顾AI外部商业模型敏感数据安全,增加备份回滚和审计要求

内容大纲:
1. SRE领域的AI Agent落地路线演进
2. SRE服务头部游戏业务针对 质量提升、效率突破、成本优化多个维度的真实场景案例实践
3. SRE AI质效度量方法和未来展望
    3.1 SRE AI质效度量方法
    3.2 SRE 通过AI重塑腾讯游戏运维服务的价值总结
    3.3 腾讯游戏SRE AI Agent实践过程的个人心得
    3.4 展望 SRE 未来AI建设方向和实践路径

听众收益:
1. 了解AI智能体在 SRE 领域如何设计和落地,帮助业务更大限度的降本增效
2. 了解AI智能体在游戏 SRE 的场景挖掘和质效度量方法

李国栋
华为云 AIOPS/Agent算法工程师
华为云 AIOps / SRE Agent 算法负责人,清华大学 信息与通信工程 博士。长期聚焦 AI Agent、SRE Agent 与大语言模型在工业级运维场景的工程化落地。博士期间累计发表学术论文 10 篇,其中 2 篇 CCF-A 顶会、2 篇中科院一区顶刊,在深度学习、Agent算法有扎实的学术积累与落地实践经验。

2023年加入华为云以来,作为算法技术负责人主导了华为云运维助手、AI For 故障定界诊断、GUI Agent、SRE Agent、输出多项关键项目的技术规划与工程落地,Agent能力覆盖云网络、对象存储、数据库等核心业务场景;提出运维工具链规划与反思系统发明专利(已通过评审),主导输出 《华为云 SRE Agent 评测工程技术规范》,牵头华为云与清华大学、南开大学、复旦大学、中国信通院等机构的 AIOPS/SRE Agent 方向产学合作与联合研究,曾获华为公司级、BU级、部门级多项技术创新与业务突破奖项。
待定
待定
SRE Agent 探索与挑战
议题背景:
随着 LLM 与 Agent 技术快速成熟,SRE Agent 正成为运维领域最受关注的方向之一。大家期待它能像 数字人一样分担告警、诊断、变更、知识问答等大量重复性工作;但 SRE 天然是强约束、强风险、强流程的场景,7×24 的生产底线不允许试错,让 SRE Agent 的落地远比想象复杂。在真正把 SRE Agent 推向一线的过程中,我们发现难点往往不在模型本身,而在“选什么场景、怎么做架构、如何评测”这几件事上。本次分享将结合华为云近两年在 SRE Agent 方向的探索与踩坑,围绕“探索—选型—挑战”主线,基于华为云确定性智能运维体系,谈谈华为云是如何理解 SRE Agent 的本质,以及如何探索从 Demo 一步步推向生产可用。

内容大纲:
1. AI 时代的 SRE:机遇与挑战
    1.1 AI 渗透软件全生命周期的新趋势:设计、开发、测试、运维等环节装备化
    1.2 从运维助手到 SRE Agent:我们的演进起点与思考
2. 业界 Agent 事故复盘与共性反思
    2.1 典型事故全景:编程 Agent 失控、模型容量短板、插件生态越权等
    2.2 共性根因归纳:权限、意图、幻觉、人类过度信任、流程缺失
3. SRE Agent 的场景选型与边界
    3.1 场景选型原则:确定性决定可行性,风险成本决定安全性
    3.2 不可能三角与 Human-in-the-Loop:自演化 / 隔离 / 安全不变为何不可兼得
4. 我们的工程实践:架构、评测
    4.1 架构设计:规划、执行、知识与记忆的分工协同
    4.2 评测体系:辅助催熟SRE Agent
5. SRE Agent 的落地路线与建议
    5.1 分阶段演进路径:立即可用、逐步落地、等待成熟
    5.2 落地关键原则:先易后难、人机协同、安全优先、数据驱动

听众收益:

1、看清 AI 时代 SRE Agent 所面临的挑战与业界事故共性根因,避免踩同样的坑
2、拿到一张 SRE Agent 场景选型思路,判断哪些场景值得先投入、哪些需要等待
3、了解Agent时代在SRE场景的分阶段演进思路与落地原则
王晓桃
淘天集团 高级测试开发工程师
淘天集团用户&内容质量高级测试开发工程师,目前主要负责用增团队的用增业务AI化项目的Multi-Agent应用的质量评测&对抗性样本测试、业务配置系统变更AI校验、AIcoding自动化测试等Agent驱动的智能化测试,毕业前后就职于腾讯、淘天公司。
待定
待定
Multi-Agent协同驱动的配置变更AI智能校验平台实践:
从"人防"到"智控"的质量范式升级
议题背景:
在业务高速迭代下,配置变更是功能上线的“加速器”,却也成为稳定性的“阿喀琉斯之踵”。FY25 数据显示,配置类故障占比达 24.8%,根因集中于内容错误(29.5%)与验收盲区(34.1%)。传统人工审批面临“影响面不可视、风险依赖经验、验收覆盖不足”的三重困境。为此,我们构建了"1 总控 +8 子 Agent"的协同校验体系,首创“感知 - 推理 - 执行 - 决策”端到端闭环。通过 LLM 语义推理与自动化真机验证的混合驱动,实现风险识别从分钟级降至秒级(120s→10s),人工 Review 成本降低 75%,拦截率提升至 75%,成功将配置风控从“被动救火”升级为“主动防御”。

内容大纲:
1. 破局:配置变更的“不可能三角”与 AI 化契机
    1.1 风险态势复盘:基于 FY25 真实故障数据的根因深挖(内容错误 vs 流程缺失)
    1.2 传统模式瓶颈:解构人工审批的“黑盒效应”——为何规则引擎失效而专家经验难复制?
    1.3 技术选型决策:为何选择 Multi-Agent?——在灵活性(LLM)与确定性(Rule)之间寻找最优解
2. 架构:Multi-Agent 协同编排引擎的设计哲学
    2.1 总体设计原则:“中心化大脑 + 边缘嵌入式”——无感接入与能力原生化
    2.2 核心架构全景:
          2.2.1 感知层:基于事件驱动的异构配置中心统一接入(MetaQ/HSF/SDK)
          2.2.2 决策层(大脑):"1 总控 +8 子 Agent"的动态编排机制
          2.2.3 执行层:Diff 驱动的智能用例生成与云真机集群调度
          2.2.4 反馈层:全链路可观测性与向量知识库闭环
    2.3 协同机制详解:
          2.3.1 并行侦察:语义、静态、专家经验、动态、历史五维并发扫描
          2.3.2 串行深潜:基于依赖关系的服务端联动与真机自动化验证
          2.3.3 加权决策:多维评分模型(≥90 放行/60-89 人机共决/<60 熔断)
3. 实战:核心技术攻坚与工程避坑指南
    3.1 非结构化配置解析:突破正则限制,基于 AST 与路径语义表达式的开关逻辑还原
    3.2 LLM 稳定性治理:
    3.3 防幻觉策略:Schema 强约束 + RAG 知识增强 + 自一致性校验(Self-Consistency)
    3.4 冷启动方案:小样本学习(Few-Shot)与专家规则库的混合引导
    3.5 多模态自动化验证:
          3.5.1 智能规划:LLM Planner 驱动 Playwright/Appium 生成操作链
          3.5.2 视觉回归:基于多模态模型的 UI 差异比对与异常标注
          3.5.3 异构系统集成:Skyline/MT/试金石等多平台差异化适配的 SDK 轻量级注入方案
4. 成效:量化收益与典型拦截案例
    4.1 质量效能双升:
          4.1.1 拦截率:30% → 75%(覆盖流量异常、灰度违规等深层风险)
          4.1.2 效率跃迁:接入成本 2 周→2 小时,验收耗时 4h→10min
          4.1.3 运维减负:规则维护成本降低 80%,误报率控制在合理区间
   4.2 真实战役复盘:
          4.2.1 案例 A:某营销活动配置逻辑死循环的提前阻断
          4.2.2 案例 B:跨版本配置不一致导致的隐性 Bug 捕获
    4.3 演进路线图:从单点校验到配置血缘图谱构建的未来规划
5. 总结:可复用的 AI 质检范式
    5.1 架构方法论:Multi-Agent 在垂直领域的编排模式总结
    5.2 落地关键点:如何平衡 AI 的不确定性与生产环境的零容忍
    5.3 行业启示:测试左移在 AI 时代的新内涵——从“执行者”到“评估者”

听众收益:
1. 掌握 Multi-Agent 复杂任务编排的落地范式:了解如何设计"1总控 + N子Agent"的协同调度机制,包括并行/串行编排策略、加权评分决策模型和一票否决机制,可直接迁移至其他需要多维度AI校验的业务场景。
2. 获取"LLM+ 规则”混合引擎的工程化解决方案:直面生产环境挑战,分享如何解决 LLM 幻觉、输出不稳定、冷启动困难等实际问题,提供 Schema 约束、RAG 增强及异步重试等经过验证的防御策略。
3. 学习"中心化引擎 + 嵌入式集成"的平台化能力输出模式:理解如何在不改变业务方现有操作习惯的前提下,通过轻量SDK和Web Component组件将AI校验能力无感注入多个异构配置平台,实现"能力集中治理、体验原生融合",实现测试左移与质量门禁的建设路径。
4. 收获配置变更质量保障的端到端闭环设计思路:从变更感知、AI预校验、自动化执行验证到灰度观测的全链路实践经验,为团队构建自身的配置变更风控体系提供可落地的参考方案。
关注QECon公众号
关注QECon视频号
议题投稿 
speaker@qecon.com.cn
票务联系 
18649077637  Lily 
 
媒体合作
135-1619-6409  皮皮
商务合作
151-2264-3988  木子
购票咨询
18649077637  Lily
服务总线
400-183-9980  
电话咨询
联系电话:
18649077637  Lily