大数据架构设计

研发学院大数据架构设计

刘刚

有着10年基于大数据平台数据建模、数据治理、数据分析和挖掘的大型数据仓库项目架构实施经验，实施过基于Hadoop平台PageRank算法的实现，在大数据架构、开发、运维和优化、数据集成、数据湖(Data Lake)、数据建模、数据挖掘/机器学习、实时推荐等方面有丰富经验，了解大数据在互联网、金融、电信方面的应用、落地和使用场景。

查看老师详情

课程内容

课程大纲

时长

模块

授课内容

1小时

数据架构技术架构方案

Ø 离线计算框架介绍

—Mapreduce、Hive、Tez、SparkSQL、pySpark

Ø 高性能查询框架介绍

—Doris、StarRocks、ClickHouse

Ø 实时计算框架介绍

—Kafka、Spark Streaming、Flink

Ø 数据摄入技术

—kafka、flinkcdc

Ø 数据湖工具

—iceberg、hudi

Ø 任务调度和工作流设计

-Airflow、DolphinScheduler

Ø 数据挖掘工具

-MLFlow

Ø 离线数据平台技术架构方案

Ø 实时OLAP数据平台架构方案

Ø 基于Flink构建湖仓一体数据平台的解决方案

1小时

数据架构业务架构案例分享

Ø 数据仓库典型架构介绍

—ODS层

—DW层

—DM层

—ADS层

Ø 数据体系规划

Ø 数据分层思想

Ø 贴源层数据建设

Ø 统一数据底座建设

Ø 数据集市建设设计

Ø 标签数据层建设计

Ø 应用数据层建设

1小时

指标数据建模案例分享

Ø 业务需求

Ø 数仓总线矩阵梳理

Ø 维度建模 – 选择业务过程

Ø 维度建模 – 声明粒度

Ø 维度建模 – 确定维度

Ø 维度建模 – 确定事实

Ø 维度建模 – 模型的扩展与集成

Ø ETL&BI设计 – 金字塔原理

Ø 数据底座建设理念和线路

Ø 指标关联关系矩阵

1小时

大数据架构案例实战

Ø 数据接入大数据平台

—离线数据接入

—实时的数据接入

Ø 数据处理过程

—数据的 ETL

—数据分层(ODS、DW 和 DM 等)

—数据建模

—数据校验

Ø 数据应用

—数据离线应用

—数据实时应用

—数据实验室

—数据展示工具(BI 工具)

4小时

数据底座（OneModel）统一数据构建和管理案例实战分享

Ø 数据域划分方法论介绍

Ø 主题域划分

Ø 指标体系构建

– 业务需求梳理方法

– 指标和维度梳理

– 选择业务过程

– 声明粒度

– 确定维度

– 确定事实

– 指标和维度一致性矩阵

Ø 建模规范介绍

Ø 数据架构解决的问题

Ø 数据分层的好处

Ø 数据仓库分层模型介绍（OneData）

Ø 明细模型

-ODS

-DWD

Ø 汇总模型

-DWS

-ADS

Ø 数据分层核心原则—公共数据下沉介绍

Ø 指标数据规范定义

Ø 事实表和维度表识别

Ø 数据一致性解决方案

- 指标一致性

- 维度一致性

- 事实一致性

Ø OneID梳理流程和生成规则案例介绍

Ø 建模生命周期

Ø 数据仓库OneModel设计规范

Ø 存储规范

Ø 时间维度规范

Ø ODS、DWD、DWS、ADS层规范

Ø 数据类型转换规范

Ø 视图、临时表规范

1小时

数据流水线开发与自动化实战（DevOps）

Ø 构建可复用的数据流水线

- 模块化设计

- 参数化与配置管理

- 代码示例（Hive SQL + 任务调度工具）

Ø 数据版本控制与协作

- Git 基础（分支管理、Pull Request）

- DVC（Data Version Control）实践

- 代码与数据分离策略

Ø 自动化测试与数据质量

- 单元测试 vs. 数据测试

- 数据质量检查（Schema 验证、异常检测）

- 案例演示

3小时

某大型企业DataOps落地案例深度剖析

Ø 多环境（集群）管理

- 数据湖平台

- 数据探索平台

- 实时数据平台

- OLTP数据查询平台

Ø 数据集成层：多元化数据集成

- 离线数据集成

- 实时数据集成

- Data API数据集成服务

- 多数据源集成能力

- 持续集成、持续监控的能力

- 持续集成任务编排

Ø 开发层：数据开发全链路

-模型设计

-数据开发

-部署上线

-质量稽核

Ø 研发管理：持续交付和持续部署

- 离线任务开发管理（Hive任务、Spark SQL任务）

- 实时任务开发管理（Kafka+Flink任务）

- 开发任务版本管理、发布、退役等

- 开发任务的全链路权限管理（开发环境、生产环境）

Ø 数据运维：全链路数据运维

- 元数据管理

- 全链路数据血缘管理

- 全域血缘打通

- 数据资产分析

- 数据处理链路自动化监控和运维

- 数据开发环境和数据生产环境无感知开发和部署

- 数据分类、数据安全等全链路开发

- 数据全生命周期自动化管理

Ø 标准体系:打造研发治理一体化流水线

- 数据质量、数据标准、数据安全等与数据开发一体化

- 将自动化测试融入数据研发、交付、运维

- 实时监控数据流水线的运行状态

Ø DataOps四大关键能力

- 统一调度编排

- 统一监控/告警

- 模型设计

- 团队协作

返回上一级

课程时长

2天

课程排期

待定

我要报名我要分享

课程推荐

返回上一级