在私有云场景领域,一个典型痛点是在运维人员数量和公有云差百倍的情况下,如何简化全栈云的运维难度,降低运维人员水平要求。运维智能体产品正好因能较好解决此类问题而兴起。本议题详细叙述华为云Stack在运维领域如何借助知识图谱、大小模型协同计算等相关技术,在知识问答、数据检索、故障诊断等领域,大幅提升智能体在各场景的准确度,并最终帮助用户提升全栈云的运维效率。
内容大纲
1. 阐述私有云和公有云在运维场景的差别,说明为什么运维智能体在私有云尤为重要
2. 说明私有云在运维领域的三个主要场景:知识问答,数据检索,故障诊断,以及场景下的运维智能体的技术挑战和解法
2.1 阐述知识问答的场景和其在传统RAG技术下的挑战
2.1.1 介绍团队采用Graph-RAG来解决的思路,以及相对业界Graph-RAG做法,团队采用的主要亮点技术
2.1.2 阐明最终效果:图谱构建效率比传统GraphRAG方法提升10倍,召回性能相比传统RAG提升3倍,且绝对准确率比传统RAG提升20%
2.2 阐述数据检索的场景主要是多源数据查询,以及其核心挑战
2.2.1 讲述如何通过模型自驱修复方法,快速修复元数据描述的方法
2.2.2 讲述如何面向不通数据源构建NL2ES、NL2SQL、NL2API原子查询能力
2.2.3 讲述如何通过元数据知识图谱,构建基于Graph-COT的多源数据查询思维链
2.2.4 展示最终实践结果,数据检索能有效满足各类运维、运营数据、和复杂关联数据的查询,且能满足一定的查询精度
2.3 阐述故障诊断的场景切入点:告警聚合和告警根因定界
2.3.1 说明如何通过全栈拓扑和告警映射,驱动大模型做根因定界
2.3.2 如果通过小模型的提前聚类,加速大模型的根因定界性能
2.3.3 展示最终实践结果,表明该方法有能有效解决大规模场景下的告警根因定界
3. 讲述未来工作,包括面向A2A的运维场景的探索,等
听众收益
1. 了解全栈云在基于大模型的AIOps领域的阶段性实现思路
2. 了解Graph-RAG的优化方法和实践
3. 了解如何面向多源数据检索的查询场景,构建元数据知识图谱,并解决复杂关联查询问题
4. 如何通过大小模型协同计算,解决面向全栈云的快速告警根因定界