SRE进阶实战

研发学院 SRE进阶实战

张观石

《SRE原理与实践：构建高可靠性互联网应用》作者。

拥有20年软件开发、架构、运维、SRE经验。曾在虎牙直播担任资深运维专家和架构师，历任项目研发负责人、SRE负责人、架构师，事故管理委员会委员、基础保障部架构师委员会委员。

为虎牙基于微服务架构的直播业务、音视频业务、海外直播业务建立了稳定性保障体系，在混合多云架构、可观测性、预案、变更管控、AIOps等SRE领域有深入研究和丰富经验。多次担任虎牙“英雄联盟全球总决赛直播”稳定性保障负责人。

同时，他也是中国信通院分布式系统稳定性实验室高级技术专家，参与编写了信通院《信息系统稳定性保障能力建设指南》。《SRE体系建设及职能转型指南》联合作者、《运维前线》一书的联合作者。多次参与GOPS、MSUP、GDevops/XOPS、51CTO WOT、GTC技术大会分享。

查看老师详情

课程内容

课程目标

本课程清晰完整地讲解SRE（系统可靠性工程）的知识体系、方法体系、工程体系；讲清楚SRE工程的方法，如怎么样设计高可靠的系统、如何与产研、运维、质量等团队协作；会讲到如何快速发现故障、确定影响、定界定位找到根因；如何找到故障规律并建设预案能力快速修复故障；也会讲到保障能力、混沌工程、AIOps、可观测性等最新理念方法；从管理上如何做好方向规划、工作目标、团队转型、如何与高层取得共识等。

本课程会讲解和展示大量的实践案例，理论结合工程实践，方便理解和参考；本课程会开展工作坊和研讨环节。

课程收益

指导性强：彻底讲清SRE的工程体系、方法体系、知识体系；
方法体系完整：讲述整套体系，行业当前热门方法形成完整工程框架；
实践性强：中大互联网企业实践案例总结，属于行业最先进的经验，大部分可直接参考，甚至拿来用；结合企业实际开展工作坊研讨、分析、共创。

1. 学员清楚理解SRE工程体系，对SRE的认知更加完整；

2. 掌握理清运维琐事的方法并初步梳理；

3. 掌握通过SLO度量业务和系统的可靠性；

4. 掌握高可用架构设计、故障修复的整体思路和方法、预案平台的建设；

5. 掌握SRE的工程体系和管理方法，进一步了解如何做好故障治理和故障复盘；

6. 更加深入理解可观测性、混沌工程的重要性，和一些创新的工作方法。

课程对象

互联网企业基础设施、IT部门、运维团队，传统企业的IT部门、运维部门

学员对象：运维工程师、SRE工程师、开发工程师、研发架构师、基础架构师、QA/测试工程师、技术管理者

课程大纲

1、SRE方法及SRE工程工作

a. 介绍SRE愿景与使命、工作职责内容；与传统可靠性、与传统运维工作方式的区别

b. SRE团队从创建到升级、SRE工程全貌大图

c. SRE 工程方法之消减琐事：识别统计、如何消减、案例分析

d.工作坊/研讨：当前团队的主要琐事工作

2、SLO体系建设-黄金指标:如何度量和评估系统稳定性

a. 如何度量可靠性：SLO方法、建设实施SLO

b. 围绕SLO建立质量体系

c. 案例分析：黄金指标项目

d. 工作坊/研讨：识别核心服务并建立黄金指标SLO

3、可靠性设计能力：从SRE的角度如何设计可靠的系统

a. SRE参与可靠性设计工作的理念和方法;设计高可靠性系统4种方法

b. SRE如何参与可靠性设计：发现风险推进改进、架构准入及架构治理项目

c. 案例：架构标准化、3个架构改进项目

d. 工作坊/研讨：画出核心服务的架构图，并指出可能风险Top3

4、观测能力：怎样做到比老板/用户/产品先发现问题、快速定位?

a. 可观测性的认识与恩考，观测能力如何帮助更早发现问题

b. 如何建设可观测性体系：以SRE的方式进行监控告警，观测能力帮助快速定位，观测平台架构，立体化监控体系

c. 观测能力应用：用于质量改进、用于故障分析，如何利用故障定界定位能力，观测能力帮助快速故障定位

d. 大模型在运维领域的应用场景和实践经验

e. 案例：AIOps根因推荐和根因定位、及观测能力度量

f. 工作坊/研讨: 故障发现、定界定位能力水平评估及存在Top问题

5、故障修复能力：掌握故障规律、建设预案系统

a. 业界案例：修复能力分级、3个惨案现场

b. 故障修复的套路：可被修复的架构设计，在故障中寻找规律，应对套路，故障修复能力分级

c. 应急预案平台建设：架构、建设思路、预案平台案例，预案方案案例

（1）风险识别：事前风险识别及防控，案例。

（2）故障案例：典型故障案例分析，应急处理方法及应急预案。

（3）演练工具：应急预案演练工具、环境等。

（4）应急预案编制：整体内容详实且成体系。

d.变更类故障的修复、紧急情况下修复故障

e. 工作坊/研讨：修复能力的评估分级，预案数量及哪种类型

6、应急协同及综合保障能力：打好一场遭遇战

a. 应急协同：快速发现、组织战斗，快速定界定位，对外联系，值班工作、应急升级等

b.管控系统可靠性：产品坏了找不到修理工具

c.与SRE应急运维相关的工具、资源、与人

d.案例：多个故障案例呈现，好案例，坏案例

e.工作坊/研讨：模拟演练故障协同，最近故障原因，如何被修复的Top故障

7、混沌工程/故障演练：在试验中发现风险，进行风险治理

a. 混沌工程：故障演练的建设思路及常用工具介绍。演练案例，案例场景列表

b. 故障治理：如何做到“治未病”

c. 反脆弱能力的运营与推行

d.工作坊/研讨：适合当前进行的反脆弱演练场景

8、SRE管理能力：故障管理、SRE工作规划

a.故障复盘、故障分析、故障定级新方法

b.运维研发如何紧密合作，Devops不仅是工具，更是精神和工作方法

c. 如何规划SRE的工作方向：抓住主要矛盾，找到价值最大点

d.工作坊/研讨：故障复盘演练，如何把握SRE的工作方向

每一个小节会讲3个方面：

1、工作方法：方法和理念、技术的认识，具体的工作方法

2、实践案例：虎牙和业界是怎么做的

3、研讨/工作坊：下午组织分组工作坊，结合企业实际和课程所讲方法，分析当前问题及原因，提供解决思路

返回上一级

课程时长

1天

课程排期

待定

我要报名我要分享

课程推荐

返回上一级