4006-998-758
3000+课程任你选择
大数据架构设计
研发学院 大数据架构设计
课程内容

课程大纲

时长

模块

授课内容

 

 

 

 

 

 

 

 

1小时

 

数据架构技术架构方案

Ø   离线计算框架介绍

—Mapreduce、Hive、Tez、SparkSQL、pySpark

Ø   高性能查询框架介绍

—Doris、StarRocks、ClickHouse

Ø   实时计算框架介绍

—Kafka、Spark Streaming、Flink

Ø   数据摄入技术

—kafka、flinkcdc

Ø   数据湖工具

—iceberg、hudi

Ø   任务调度和工作流设计

     -Airflow、DolphinScheduler

Ø   数据挖掘工具

     -MLFlow

Ø   离线数据平台技术架构方案

Ø   实时OLAP数据平台架构方案

Ø     基于Flink构建湖仓一体数据平台的解决方案

 

 

 

 

 

 

1小时

 

数据架构业务架构案例分享

Ø   数据仓库典型架构介绍

—ODS层

—DW层

—DM层

—ADS层

Ø   数据体系规划

Ø   数据分层思想

Ø   贴源层数据建设

Ø   统一数据底座建设

Ø   数据集市建设设计

Ø   标签数据层建设计

Ø   应用数据层建设

 

 

 

 

1小时

 

 

 

 

 

 

指标数据建模案例分享

Ø     业务需求

Ø     数仓总线矩阵梳理

Ø     维度建模 – 选择业务过程

Ø     维度建模 – 声明粒度

Ø     维度建模 – 确定维度

Ø     维度建模 – 确定事实

Ø     维度建模 – 模型的扩展与集成

Ø     ETL&BI设计 – 金字塔原理

Ø     数据底座建设理念和线路

Ø     指标关联关系矩阵

 

 

 

 

 

 

 

1小时

 

 

 

 

 

 

大数据架构案例实战

Ø     数据接入大数据平台

   —离线数据接入

   —实时的数据接入

Ø     数据处理过程

   —数据的 ETL

   —数据分层(ODS、DW 和 DM 等)

   —数据建模

   —数据校验

Ø     数据应用

   —数据离线应用

   —数据实时应用

   —数据实验室

   —数据展示工具(BI 工具)

 

 

 

 

 

 

 

 

 

 

4小时

 

 

 

 

 

 

 

 

 

 

数据底座(OneModel)统一数据构建和管理案例实战分享

Ø   数据域划分方法论介绍

Ø   主题域划分

Ø   指标体系构建

        业务需求梳理方法

        指标和维度梳理

        选择业务过程

        声明粒度

        确定维度

        确定事实

        指标和维度一致性矩阵

Ø   建模规范介绍

Ø   数据架构解决的问题

Ø   数据分层的好处

Ø   数据仓库分层模型介绍(OneData)

Ø   明细模型

     -ODS

     -DWD

Ø   汇总模型

     -DWS

     -ADS

Ø   数据分层核心原则—公共数据下沉介绍

Ø   指标数据规范定义

Ø   事实表和维度表识别

Ø   数据一致性解决方案

   - 指标一致性

   - 维度一致性

   - 事实一致性

Ø   OneID梳理流程和生成规则案例介绍

Ø   建模生命周期

Ø   数据仓库OneModel设计规范

Ø   存储规范

Ø   时间维度规范

Ø   ODS、DWD、DWS、ADS层规范

Ø   数据类型转换规范

Ø   视图、临时表规范

 

 

 

 

1小时

 

 

 

 

数据流水线开发与自动化实战(DevOps)

Ø   构建可复用的数据流水线

    - 模块化设计

    - 参数化与配置管理

    - 代码示例(Hive SQL + 任务调度工具)

Ø   数据版本控制与协作

    - Git 基础(分支管理、Pull Request)

    - DVC(Data Version Control)实践

    - 代码与数据分离策略

Ø   自动化测试与数据质量

    - 单元测试 vs. 数据测试

    - 数据质量检查(Schema 验证、异常检测)

- 案例演示

 

 

 

 

 

 

 

 

 

 

 

3小时

 

 

 

 

 

 

 

 

 

 

 

某大型企业DataOps落地案例深度剖析

Ø   多环境(集群)管理

    - 数据湖平台

    - 数据探索平台

    - 实时数据平台

    - OLTP数据查询平台

Ø   数据集成层:多元化数据集成

    - 离线数据集成

- 实时数据集成

    - Data API数据集成服务

   - 多数据源集成能力

    - 持续集成、持续监控的能力

   - 持续集成任务编排

Ø   开发层:数据开发全链路

    -模型设计

    -数据开发

    -部署上线

    -质量稽核

Ø   研发管理:持续交付和持续部署

    - 离线任务开发管理(Hive任务、Spark SQL任务)

    - 实时任务开发管理(Kafka+Flink任务)

   - 开发任务版本管理、发布、退役等

    - 开发任务的全链路权限管理(开发环境、生产环境)

Ø   数据运维:全链路数据运维

   - 元数据管理

   - 全链路数据血缘管理

   - 全域血缘打通

    - 数据资产分析

   - 数据处理链路自动化监控和运维

   - 数据开发环境和数据生产环境无感知开发和部署

   - 数据分类、数据安全等全链路开发

   - 数据全生命周期自动化管理

Ø   标准体系:打造研发治理一体化流水线

   - 数据质量、数据标准、数据安全等与数据开发一体化

    - 将自动化测试融入数据研发、交付、运维

    - 实时监控数据流水线的运行状态

Ø   DataOps四大关键能力

-         统一调度编排

-         统一监控/告警

-         模型设计

-         团队协作


返回上一级