← 返回服务总览

运维技术培训

系统化课程体系,由行业实战专家授课,从SRE进阶到AIOps,覆盖运维全栈能力建设

01 · SRE进阶实战

打造稳定可靠的互联网服务。课程深度剖析SRE核心理念,结合虎牙直播千万级并发业务实践经验,帮助学员构建完整的稳定性保障思维与实战能力。

  • SRE体系架构设计方法论
  • 可用性指标与错误预算管理
  • 变更管理、预案体系建设
  • 故障复盘与持续改进机制
  • AIOps在SRE中的实践应用
🎯

实战导向

基于真实大型直播平台案例

02 · 大模型在运维领域的应用

AI赋能运维智能化转型。深入讲解大语言模型(LLM)、Agent、RAG等前沿技术如何落地运维场景,实现故障诊断智能化、运维自动化。

  • 运维知识库构建与RAG应用
  • LLM驱动的智能故障排查
  • 运维Agent开发与工具调用
  • 可观测性数据的AI分析
  • 大模型运维场景实战项目
🤖

AI前沿

大模型+运维跨界融合

03 · FinOps降本增效实践

IT资源管理的降本提效。帮助企业建立FinOps文化,实现云资源精细化运营,显著降低IT支出。

  • 云成本分析与资源画像
  • Reserved/Spot实例优化策略
  • Kubernetes成本优化实战
  • 成本可视化与告警体系
  • FinOps组织建设与流程
💰

降本看得见

多家企业验证有效降本20%+

04 · 大型复杂系统容量与资源规划

科学规划系统容量,确保业务稳定的同时避免资源浪费。涵盖容量建模、性能测试、弹性伸缩等核心能力。

  • 容量建模与性能测试方法
  • 弹性伸缩架构设计
  • 多活容灾容量规划
  • 峰值流量应对策略
  • 容量与成本的平衡艺术
📊

精准规划

容量规划不再是拍脑袋

05 · 运维自动化DevOps体系建设

构建完整的运维自动化体系,覆盖从代码提交到生产发布的全链路DevOps能力,提升交付效率与质量。

  • GitOps/CI-CD流水线设计
  • 配置管理与基础设施代码化
  • 发布策略与灰度发布实战
  • 自动化测试与质量门禁
  • DevOps度量和持续改进
⚙️

全链路自动化

从代码到生产的完整闭环

06 · CMDB平台建设与应用实践

构建企业级配置管理数据库(CMDB),实现IT资产全生命周期管理,支撑自动化运维和故障定位。

  • CMDB数据模型设计
  • 自动化采集与数据治理
  • CMDB与运维自动化集成
  • 面向故障定位的配置关联
  • CMDB运营指标体系建设
🗄️

数据基石

运维自动化的数据底座

07 · 运维监控与可观测性建设

从传统监控到现代可观测性,构建完整的可见性体系。覆盖Metrics、Logs、Traces三大支柱,实现故障的快速发现与定位。

  • 可观测性架构设计
  • Prometheus/Grafana实战
  • 链路追踪(OpenTelemetry)
  • 日志聚合与分析体系
  • 告警收敛与智能化告警
📡

全局可见

Metrics + Logs + Traces

08 · 故障应急处理与端到端业务保障

建立高效的故障应急体系,实现从故障发现到恢复的全链路保障。结合英雄联盟全球总决赛等大型活动保障经验倾囊相授。

  • 故障分级与应急响应机制
  • 故障定位方法论与工具
  • 故障调度与协同作战
  • 重大活动保障体系
  • 故障复盘与改进闭环
🚨

快速恢复

从故障到恢复的高效闭环

服务客户

曾为多家金融机构及大型企业提供运维培训服务

招商证券 国信证券 安信证券 国泰君安 民生银行 宁波银行 建信金科 中移信息 中国联通 国央企

开启您的团队能力提升之旅

无论是公开课、内训还是定制课程,我们都期待与您深入交流