4006-998-758
3000+课程任你选择
Flink+Hudi流批一体大数据技术实战
研发学院 Flink Hudi 数据 开课时间:2023-02-08
刘刚

有着10年基于大数据平台数据建模、数据治理、数据分析和挖掘的大型数据仓库项目架构实施经验,实施过基于Hadoop平台PageRank算法的实现,在大数据架构、开发、运维和优化、数据集成、数据湖(Data Lake)、数据建模、数据挖掘/机器学习、实时推荐等方面有丰富经验,了解大数据在互联网、金融、电信方面的应用、落地和使用场景。

查看老师详情
课程内容


课程大纲


时间

内容

案例实战

Day1

上午

数据仓库建设原理、架构和实践案例

1、数据仓库基本概念及发展历程

2、广义数据仓库与狭义数据仓库

3、数据仓库体系结构

4、新一代数仓---数据中台概念及架构

5、数据仓库建设过程方法论

6、数仓五层结构

7、数据仓库模型设计

8、离线数仓解决方案

9、实时数仓数仓解决方案

10、流批一体数据架构解决方案

11、数据仓库设计案例实战


Day1

下午

数据湖架构、案例和常用框架

1、数据湖基本概念及总体架构

2、数据湖以及Hudi数据湖概述

3、Hudi数据湖插入数据

4、Hudi数据湖之更新数据

5、Hudi数据湖查询数据

6、Hudi增量数据查询

7、Hudi表格式介绍

8、Hudi表索引介绍

9、Hudi数据湖COW表引擎

10、Hudi数据湖MOR表引擎

11、Hudi Timeline详解

12、Hudi数据湖之flink实时数据分析服务构建

13、Hudi数据湖之注册中心构建

14、Hudi数据湖之数据实时收集服务构建

15、数据湖hudi之hive整合数据存储无数据问题解决

16、数据湖hudi之hive整合数据更新实战

实战:

Hudi构建数据湖的典型应用场景介绍

数据湖结构实战

Day2

上午

 

实时计算框架Flink基本原理和应用案例

1、 实时计算应用场景介绍

实时数仓数仓解决方案

10、流批一体数据架构解决方案

2、实时处理框架Flink简介

3、Flink Runtime架构介绍

3.1分布式处理引擎介绍

3.2 作业表达

3.3 Runtime分布式架构

3.4 JobMaster作业控制

3.5 JobMaster作业调度

3.6 JobMaster作业的容错机制

3.7 TaskExecutor—任务运行的容器

3.8 Task Slot共享

3.9 ResourceManager资源的管理中心

4、Flink DataStream原理

4.1 Flink并行计算和DAG

4.2 Flink API逻辑层次

4.3 DataStream转换操作

4.4 数据分区

4.5 Flink中的时间EventTime和ProcessingTime

4.6 WateMark原理和实战

4.7 DataStream Window原理和实战

4.8 CountWindow介绍和实战

4.9 TimeWindow介绍和实战

5、Flink状态和容错

5.1 分布式流计算原理

5.2 流计算的状态

5.3 快照和全局快照

5.4 全局一致性原理介绍和实战

5.5 Exactly once语义原理和实战

5.6 Flink故障恢复原理和实战

5.7 Flink Checkpoint原理和实实现

5.8 Flink快照Barrier原理和实战

5.9 Flink状态管理介绍

5.10 MemoryStateBackend介绍

5.11 FSStateBackend介绍

5.12 RocksDBStateBackend介绍

6、 Flink SQL和Table开发实战

6.1 Flink SQL功能介绍

6.2 Flink SQL

6.3 Kafka+FlinkSQL整合

6.4 Flink Table介绍

6.5 Flink Table DSL语法介绍

7、 Flink CDC介绍

7.1 传统CDC工具介绍

7.2 CDC工具介绍和比较

7.3 Flink CDC支持的功能

7.4 基于日志CDC的数据同步流程

7.5 ETL—传统CDC ETL分析

7.6 ETL—基于Flink CDC 聚合分析

7.7 Flink CDC 数据宽表

7.8 Flink SQL如何集成CDC

7.9 Flink CDC 作为数据采集层的优势


Day2

下午

 

Flink CDC介绍

7、 Flink CDC介绍

7.1 传统CDC工具介绍

7.2 CDC工具介绍和比较

7.3 Flink CDC支持的功能

7.4 基于日志CDC的数据同步流程

7.5 ETL—传统CDC ETL分析

7.6 ETL—基于Flink CDC 聚合分析

7.7 Flink CDC 数据宽表

7.8 Flink SQL如何集成CDC

7.9 Flink CDC 作为数据采集层的优势

 

Day2

下午

 

项目实战RDBMS

+Kafka+Flink CDC+FlinkSQL+ES+Kibana项目实战

 

RDBMS+Kafka+Flink   CDC+FlinkSQL+ES+Kibana项目实战:

1、Docker演示环境介绍

2、Flink CDC mysql实战

3、Flink CDC postgres实战

4、Flink CDC Kafka实战

5、Flink CDC ES实现

6、Kibana结果展示

7、RDBMS+Kafka+Flink CDC+FlinkSQL+ES+Kibana完整项目实战

 


返回上一级