从告警到自愈:大模型驱动的大数据SRE智能运维体系实践
议题背景:
快手大数据平台承载着 200+ClickHouse集群的运维保障工作,日均处理海量告警。传统模式下,SRE工程师需要人工查看告警、登录多个系统采集数据、凭经验定位根因、手工执行修复操作,单次故障处理耗时 15-60分钟,且严重依赖个人经验,知识难以沉淀和复用。随着集群规模增长,"人盯告警"模式的效率瓶颈和知识断层问题日益突出。我们思考:能否用大模型+多智能体架构,将SRE的诊断经验编码为可执行的AI工作流,构建覆盖"告警根因分析一交互式诊断一SQL优化一全集群巡检自愈执行"全链路的智能运维闭环?本次分享将介绍我们在这一方向上的系统化实践。
内容大纲:
1. 大数据SRE运维的挑战与破局思路
1.1 170+ ClickHouse集群运维现状:三种架构类型(存算分离KFS、物理一体机、KwaiCH/HDFS)带来的复杂度
1.2 传统运维的三大痛点:告警疲劳、经验孤岛、修复滞后
1.3 破局思路:从"人找问题"到"AI闭环"一一全链路智能运维体系设计
2. 告警根因分析(RCA):10秒级自动定位
2.1 编排式RCA架构:并行数据采集Prompt模板注入Qwen3-235B单轮推理
2.2六大告警场景覆盖:可用性下降、Kafka导入延迟、集群完整性、进程异常等
2.3 Prompt即规约:700+ClickHouse错误码+时序关联规则内嵌Prompt,将LLM变成"概率规则引擎"
2.4 双通道策略:编排式快速通道(<10s,面向SRE)与 Agent 式深度分析(1-3min,面向业务用户)
3. 交互式诊断Agent:20个MCP工具的智能调度
3.1 MCP工具体系设计:诊断、优化、存储三大类20个工具的统一注册与管理
3.2场景驱动的Agent调度脑:4类场景(集群诊断/慢查询分析/用户SQL优化/存储容量对比)的自动识别与工作流编排
3.3 知识库工程:诊断 KB(现象一排查路径映射)+优化KB(SQL改写规则)+共享基础知识的分层复用
4. 自愈执行引擎:从组织理论到多智能体Pipeline
4.1 核心创新一一五阶段 Agent Pipeline:分诊(Triage)协调(Coordinator)安全审查(Security)执行(Executor)验证(Verifier)
4.2 组织理论映射Agent 设计:Conway定律(Pipeline拓扑对齐团队结构)、管理幅度5±2(1人5Agent50+工具的两级
管理)、OKR框架(Mission.goal=O,success_criteria=KR)
4.3 Mission驱动而非Step驱动:Skill是目标文档而非步骤模板,Agent自主决定执行策略
4.4 三层安全纵深:Prompt约束层 + Guardrails代码层(16种危险命令拦截)+Security Agent 审查层
4.5 Human-in-the-Loop:KIM审批卡片实现 on-call 工程师逐步确认,拒绝即终止
5. AI自生成Skill与持续进化
5.1 三级 Skil匹配策略:规则快速通道(置信度≥0.95跳过AI)AI语义匹配AI自动生成新 Skil
5.2 历史执行注入Few-Shot学习:将过往成功/失败案例作为上下文,提升执行质量
5.3 从MVP到智能体平台的演进路径:单体Agent Pipeline专业化中台化(50+工具)- Mesh 自组织(100+ 工具)
6. 全集群巡检与SQL优化:主动发现问题
6.1 五维健康模型:集群、写入、查询、存储、副本的定期巡检与健康评分
6.2 SQL优化七件套;列类型审计、执行计划分析、Mutation监控、查询改写建议等
6.3 巡检与RCA的闭环联动:巡检发现风险一自动生成工单一触发RCA验证一必要时进入自愈流程
7. 效果与展望
7.1 量化收益:工具开发效率提升 80%、知识维护成本降低60%、新 Agent上线从1周缩短至1天
7.2 实践总结:Prompt工程的可维护性、Agent人格化设计的意外收益、安全左移的必要性
7.3 未来方向:异常检测算法引入、LLM对话式根因分析、SRE反馈闭环持续学习
听众收益:
架构蓝图可借鉴:获得一套经生产验证的"告警一RCA诊断一优化一巡检一自愈"全链路AIOps架构设计,可直接迁移到自身的数据库/大数据运维场景多智能体实践
少走弯路:了解五阶段 Agent Pipeline的设计取舍(为什么不是单体 Agent?为什么安全是独立阶段?),以及组织理论如何指导Agent架构决策Prompt工程方法论
可复用:学习如何将领域知识(700+错误码、诊断路径、时序规则)系统化地编码进Prompt,实现"Prompt即规约"MCP工具体系建设
启发:20个MCP工具从设计、版本兼容、安全防护到平台化注册的全流程经验
安全设计思路直接采用:三层纵深防御(Prompt约束+代码 Guardrails+Agent审查)+Human-in-the-Loop审批的落地方案,适用于任何需要 AI执行高风险操作的场景