← 返回服务总览
🤖 AI · 大模型 · 智能体

AI智能体 for 运维

3天系统课程,从大模型认知到生产级Agent开发,构建你的运维智能化能力。涵盖知识库、RAG、MCP协议、OpenClaw等前沿技术栈。

课程概览

📅
3
天系统学习
👨‍🏫
20年+
SRE实战专家
🛠️
10+
实战动手项目
🏆
100%
源于生产实践

你将掌握的核心技术栈

RAG 知识库 LLM Agent MCP协议 A2A协议 Skill ReAct OpenClaw FastMCP 知识图谱 Prometheus CMDB 日志分析
第一天

大模型及智能运维认知 · 运维知识库构建

上午
9:00–12:00

大模型及智能运维AIOps技术通用认知

  • AIOps的演进过程:从规则到统计算法、到大模型赋能智能化运维
  • 大模型在运维领域的阶段应用及典型案例
  • RAG相关技术和知识库基础,快速演示及初步优化方法
  • 智能体技术入门:Agent / A2A / MCP / Skill 协议初步讲解
  • 运维专家的隐性知识转化为可执行的推理流程
下午
14:00–17:30

构建运维知识库

  • 基于大模型的知识库工作原理及多模态信息转化方法
  • 用知识地图方法,整理采集运维领域知识
  • CMDB元数据及配置项信息、预案SOP文档如何有效转为知识库
  • 运维文档/架构图等文档转为知识库,基于故障报告的根因推荐
  • 工程师运维经验如何转化为运维知识并入库
  • 案例:基于DeepSeek构建企业运维知识库及智能问答
  • 动态知识库:变更记录转化为知识库;监控指标成为知识库
  • 运维日志转为知识,并在故障定位中应用;故障处理记录导入知识库
  • 知识迭代:知识库的应用与反馈、产生新知识入库
  • 构建运维知识库的难点与挑战问题
第二天

大模型故障诊断 · 根因定位 · 日常运维赋能

上午
9:00–12:00

通过大模型进行故障智能诊断与根因定位

  • SRE进行故障定位的方法体系和最佳实践
  • 大模型如何协助RCA推理,多轮推理与工具调用的协同
  • 基于大模型构建关联多源数据的知识图谱
  • 在故障定位时如何利用运维知识库,及基于置信度的异常判断
  • 案例:诊断某系统中断,定位到数据库配置错误
  • 实践:对模拟事件进行RCA,生成分析报告
  • Java故障诊断案例,MCP结合日志分析进行故障诊断
  • 操作系统OS:系统内核故障深度根因分析
下午
14:00–17:30

大模型在运维中的应用场景和案例

📋 日常运维赋能

日常问题分析 运维工作报告、故障报告整理自动化
专业岗位赋能 DBA、系统专家、网络专家的AI助手
运维开发应用 大模型辅助运维脚本和工具开发

💡 提示词工程

Prompt工程实操 运维领域专属Prompt设计方法
调优技巧 提示词迭代优化与输出质量控制
实操练习 设计并优化提示,分析样本日志文件
第三天

MCP协议深度解析 · 运维Skill工程 · Agent闭环实战

上午
9:00–12:00

连接多运维系统 — MCP协议深度解析与接入实战

  • 运维AI的新标准:MCP协议核心原理深度讲解
  • 实操练习:在本地环境配置并启动一个现成的MCP Server,让大模型实时读取本地运行日志
  • 深度开发:编写企业专属MCP Server,将CMDB、Prometheus监控数据定义为AI可读的静态/动态资源
  • 工具封装(Tools):将"查询Pod状态"、"清理磁盘"等指令封装为MCP Tool
  • 实战练习:使用Python(FastMCP)编写MCP Server,连接模拟K8s API或数据库,实现数据双向交互
  • 安全防护:MCP环境下的运维红线与权限控制
下午
14:00–17:30

动作原子化 — 运维Skill工程与Agent闭环实战

  • 技能设计哲学:从脚本思维到Skill思维
  • ReAct模式与多步推理:Observation → Thought → Action 循环逻辑编排
  • 实战练习:将一个复杂的Shell脚本重构为一个符合生产标准的AI Skill模块
  • 实操演示:模拟性能压测场景,看Agent如何调用多个Skill(查询监控 → 抓取堆栈 → 分析火焰图 → 给出结论)
  • 实操:分组完成一个闭环的故障自愈Agent开发
  • OpenClaw为什么如此火爆 — 技术架构详解与使用部署
  • 演示:OpenClaw完成运维任务全流程
  • 生产落地的最后1公里:人机协同(HITL),审批流设计及异常处理
  • 总结与专家展望:运维人的AI转型路径

实战项目

每个模块配套动手实验,真正掌握生产级技能

🗄️

运维知识库构建

基于DeepSeek构建企业级运维知识库,完成从文档采集、知识抽取到智能问答的完整链路实战。

🔍

RCA故障分析

使用大模型对真实故障案例进行多轮推理,生成结构化RCA分析报告,训练故障定位能力。

⚙️

MCP Server开发

使用FastMCP编写企业专属MCP Server,接入模拟K8s集群,实现数据双向交互与工具调用。

🧩

Skill模块重构

将生产级Shell脚本重构为符合ReAct标准的AI Skill模块,掌握脚本到Skill的转化方法。

🤖

故障自愈Agent

分组开发一个端到端故障自愈Agent,串联监控告警、诊断决策、自动修复全流程。

🚀

OpenClaw实战

在本地部署OpenClaw,配置并演示其完成典型运维任务的全流程,理解架构设计原理。

开启运维智能化转型之旅

3天系统学习,掌握大模型时代运维核心竞争力