课程目标
本课程清晰完整地讲解SRE(系统可靠性工程)的知识体系、工程体系;讲清楚SRE工程的方法,如怎么样设计高可靠的系统、如何与产研、运维、质量等团队协作;会讲到如何快速发现故障、确定影响、定界定位找到根因;如何找到故障规律并建设预案能力快速修复故障;也会讲到保障能力、混沌工程、AIOps、可观测性等最新理念方法;从管理上如何做好方向规划、工作目标、团队转型、如何与高层取得共识等。
本课程会讲解和展示大量的实践案例,理论结合工程实践,方便理解和参考;本课程会开展工作坊和研讨环节。
课程大纲
课程大纲 | |
AIOps的知识与案例 | 1、AIOPS的基础知识与概况 2、AIOPS在业务运维中的应用场景、前景 3、AIOPS的关键技术 4、AIOPS在运维中的实际案例: AIOps 在故障诊断与定位的应用 AIOps 在性能优化中的应用 AIOps 在容量管理与资源调度的应用 NLP在舆情分析中识别异常的案例 5、工作坊:结合企业业务实验一个应用案例 |
AIOPS的工程实施
| 1. 数据收集与处理 2. AIOps相关算法与应用场景 3. 模型训练与优化 4. 算法的构建和部署 5. 支撑AIOps智能运维的技术架构 6. 效果评估与持续改进 7. 在软件生命周期的的各个阶段如何应用AIOps 8. 多种组件中应用AIOps提升能力 9. AIOps工程案例、算法案例 |
基于大模型的智能运维的探索 | 1. 运维大语言模型的应用场景 2. 运维领域的Prompt工程 3. 日常如何开始使用大模型 4. 运维领域大模型应用的不足和挑战 5. 运维大语言模型应用路径 6. 工作坊:应用大模型完成一个小任务 |
基于大模型的智能运维的探索 | 1. 代码大模型的使用指导 2. 其他大模型的使用指导 3. 基于Dify企业知识库构建chatGPT大模型 |
大模型在运维中的应用场景和案例
| 1. 运维的应用场景案例:复杂问题排查 2. 日志分析与故障诊断案例 3. 疑难问题分析:系统内核故障分析 4. 构建运维知识库 5. 大模型 for DBA 6. 运维开发,懂开发的运维 7. 运维管理 8. 智能体Agent 9. 用大模型智能运维开发传统算法智能运维 |

