4006-998-758
3000+课程任你选择
大数据架构师实训
研发学院 大数据架构师实训
徐葳

丰富的IT方面从业经验,曾任职猎豹移动大数据技术专家、中科院大数据研究院大数据技术专家,对大数据生态体系有深入理解。曾主导开发了海量日志数据采集系统、OLAP数据分析平台、数据仓库、PB级日志检索系统、数据中台等。受邀成为郑州工业应用学院特聘大数据讲师。


查看老师详情
课程内容

课程介绍

课程聚焦大数据架构师核心能力培养,覆盖大数据全链路技术体系与主流架构演进,助力学员快速建立全局架构视野、掌握技术选型逻辑、提升企业级平台落地能力。

课程遵循大数据全生命周期脉络,从数据采集、存储、计算、分析、检索调度到数据仓库架构演进,系统讲解数据采集、离线计算、实时计算、数据湖、流存储、批流/湖仓 /湖流一体化等主流技术;通过多组件横向对比、核心原理拆解、实战案例演练,打通从技术理解到架构设计的关键能力。

课程大纲

时间安排

课程模块

课程内容

第1天

上午

大数据生态圈概述

1 大数据生态圈核心技术组件系统分析

2 大数据平台常见架构分析(离线数仓+实时数仓+批流一体化数仓+湖仓一体化+湖流一体化)

数据采集

3 常见日志数据采集工具综合对比分析(Flume+Logstash+Filebeat)  

4 常见的离线数据库采集工具综合对比分析(Sqoop+DataX)

5 数据库离线数据采集案例实战(Sqoop VS   DataX)

6 常见的实时数据库采集工具综合对比分析(Canal+Maxwell+Debezium+Flink   CDC)

7 实时数据库采集案例实战(Maxwell VS Flink   CDC)

8 DataX和Flink CDC在企业中的典型案例分析

9 新一代分布式数据采集平台SeaTunnel的核心原理及架构分析

第1天

下午

数据存储

 

1 分布式文件存储系统HDFS原理及架构分析

2 HDFS的高级特性分析(HA、纠删码机制、Federation)

3 常见NoSQL数据库综合对比分析(MongoDB\Cassandra\Redis\HBase)

4 HBase核心原理及架构分析

5   Elasticsearch+HBase典型案例场景分析

6 HBase在区域用户画像项目中的应用分析

数据湖存储&

流存储

7 数据湖四剑客综合对比分析(Iceberg\Hudi\Delta Lake\Paimon)

8  Paimon的核心原理及架构分析

9 数据湖功能特点实战对比(Paimon   VS Iceberg VS Hudi)

10 数据湖存储系统在企业中的典型案例场景分析

11 新一代流存储系统Fluss的核心原理及架构分析

12 Fluss+Paimon的典型应用场景分析

第2天

上午

离线数据计算

1 Spark核心原理及架构分析

2 Spark Core核心功能案例实战

3 Spark Streaming   VS Structured Streaming

4 Spark SQL核心功能案例实战

5 Spark任务提交模式详解

6 Spark性能优化方法总结

7 Spark在企业中的典型案例分析

第2天

下午

消息队列

1 常见消息队列综合对比分析(Kafka+Pulsar)

2 Kafka的核心原理及架构分析

3 Pulsar的核心原理及架构分析

4 数据生产和消费实战(Kafka VS Pulsar)

实时数据计算

5 Flink核心原理及架构分析

6 Flink流批一体代码案例开发

7 Flink ON YARN任务执行模式分析

8 Flink DataStream   API的使用

9 Flink SQL核心原理分析

10 Flink SQL数据处理案例开发

11 Flink SQL双流Join核心原理分析及应用

12 Flink在企业中的典型案例分析

第3天

上午

离线

OLAP数据分析

1 常见离线OLAP数据分析工具综合对比分析(Hive+Impala+Kylin)

2 Hive核心原理及架构分析

3 Hive SQL核心功能应用实战

4 Hive在企业中的典型案例分析

实时

OLAP数据分析

5 常见实时OLAP数据分析工具综合对比分析(Druid+ClickHouse+Doris)

6 Doris核心原理及架构分析

7 Doris   SQL核心功能应用实战

8 Doris在企业中的典型案例分析

第3天

下午

数据检索&

任务调度

1 常见的全文检索引擎综合对比分析(Lucene+Solr+Elasticsearch)

2 Elasticsearch核心原理及架构分析

3 Elasticsearch中索引数据的操作实战

4 Elasticsearch SQL功能分析

5 Elasticsearch在企业中的典型案例分析

6 常见分布式任务调度工具综合对比分析(Azkaban+Oozie+DolphinScheduler)

7 多级带依赖任务调度实战对比(Azkaban   VS DolphinScheduler)

数据仓库架构整体演进过程

8 数据仓库核心原理分析

9 数据仓库建模方式分析(ER实体建模、维度建模等)

10 数据仓库分层设计

11 数据仓库架构演进过程(离线数仓、实时数仓、批流一体数仓、湖仓一体、湖流一体)


返回上一级