课程大纲
时长 | 模块 | 授课内容 |
1小时 |
数据架构技术架构方案 | Ø 离线计算框架介绍 —Mapreduce、Hive、Tez、SparkSQL、pySpark Ø 高性能查询框架介绍 —Doris、StarRocks、ClickHouse Ø 实时计算框架介绍 —Kafka、Spark Streaming、Flink Ø 数据摄入技术 —kafka、flinkcdc Ø 数据湖工具 —iceberg、hudi Ø 任务调度和工作流设计 -Airflow、DolphinScheduler Ø 数据挖掘工具 -MLFlow Ø 离线数据平台技术架构方案 Ø 实时OLAP数据平台架构方案 Ø 基于Flink构建湖仓一体数据平台的解决方案 |
1小时 |
数据架构业务架构案例分享 | Ø 数据仓库典型架构介绍 —ODS层 —DW层 —DM层 —ADS层 Ø 数据体系规划 Ø 数据分层思想 Ø 贴源层数据建设 Ø 统一数据底座建设 Ø 数据集市建设设计 Ø 标签数据层建设计 Ø 应用数据层建设 |
1小时
|
指标数据建模案例分享 | Ø 业务需求 Ø 数仓总线矩阵梳理 Ø 维度建模 – 选择业务过程 Ø 维度建模 – 声明粒度 Ø 维度建模 – 确定维度 Ø 维度建模 – 确定事实 Ø 维度建模 – 模型的扩展与集成 Ø ETL&BI设计 – 金字塔原理 Ø 数据底座建设理念和线路 Ø 指标关联关系矩阵 |
1小时 |
大数据架构案例实战 | Ø 数据接入大数据平台 —离线数据接入 —实时的数据接入 Ø 数据处理过程 —数据的 ETL —数据分层(ODS、DW 和 DM 等) —数据建模 —数据校验 Ø 数据应用 —数据离线应用 —数据实时应用 —数据实验室 —数据展示工具(BI 工具) |
4小时 |
数据底座(OneModel)统一数据构建和管理案例实战分享 | Ø 数据域划分方法论介绍 Ø 主题域划分 Ø 指标体系构建 – 业务需求梳理方法 – 指标和维度梳理 – 选择业务过程 – 声明粒度 – 确定维度 – 确定事实 – 指标和维度一致性矩阵 Ø 建模规范介绍 Ø 数据架构解决的问题 Ø 数据分层的好处 Ø 数据仓库分层模型介绍(OneData) Ø 明细模型 -ODS -DWD Ø 汇总模型 -DWS -ADS Ø 数据分层核心原则—公共数据下沉介绍 Ø 指标数据规范定义 Ø 事实表和维度表识别 Ø 数据一致性解决方案 - 指标一致性 - 维度一致性 - 事实一致性 Ø OneID梳理流程和生成规则案例介绍 Ø 建模生命周期 Ø 数据仓库OneModel设计规范 Ø 存储规范 Ø 时间维度规范 Ø ODS、DWD、DWS、ADS层规范 Ø 数据类型转换规范 Ø 视图、临时表规范 |
1小时 |
数据流水线开发与自动化实战(DevOps) | Ø 构建可复用的数据流水线 - 模块化设计 - 参数化与配置管理 - 代码示例(Hive SQL + 任务调度工具) Ø 数据版本控制与协作 - Git 基础(分支管理、Pull Request) - DVC(Data Version Control)实践 - 代码与数据分离策略 Ø 自动化测试与数据质量 - 单元测试 vs. 数据测试 - 数据质量检查(Schema 验证、异常检测) - 案例演示 |
3小时 |
某大型企业DataOps落地案例深度剖析 | Ø 多环境(集群)管理 - 数据湖平台 - 数据探索平台 - 实时数据平台 - OLTP数据查询平台 Ø 数据集成层:多元化数据集成 - 离线数据集成 - 实时数据集成 - Data API数据集成服务 - 多数据源集成能力 - 持续集成、持续监控的能力 - 持续集成任务编排 Ø 开发层:数据开发全链路 -模型设计 -数据开发 -部署上线 -质量稽核 Ø 研发管理:持续交付和持续部署 - 离线任务开发管理(Hive任务、Spark SQL任务) - 实时任务开发管理(Kafka+Flink任务) - 开发任务版本管理、发布、退役等 - 开发任务的全链路权限管理(开发环境、生产环境) Ø 数据运维:全链路数据运维 - 元数据管理 - 全链路数据血缘管理 - 全域血缘打通 - 数据资产分析 - 数据处理链路自动化监控和运维 - 数据开发环境和数据生产环境无感知开发和部署 - 数据分类、数据安全等全链路开发 - 数据全生命周期自动化管理 Ø 标准体系:打造研发治理一体化流水线 - 数据质量、数据标准、数据安全等与数据开发一体化 - 将自动化测试融入数据研发、交付、运维 - 实时监控数据流水线的运行状态 Ø DataOps四大关键能力 - 统一调度编排 - 统一监控/告警 - 模型设计 - 团队协作 |

