掌握数仓构建,完善技术体系,轻松掌握高薪技能

*   第1章 从0到1搭建项目开发环境,快速上手大数据开发/

  *   1-1 大数据时代,你还不知道数据仓库么?.mp4 10:28

  *   1-2 本章概览.mp4 02:05

  *   1-3 基于IDEA + Maven构建Spark工程.mp4 12:18

  *   1-4 数据开发环境(Spark/Hive/Hadoop/MySQL/IDEA)搭建

  *   1-5 Maven安装配置

  *   1-6 源码、启动脚本、配置等自动构建打包.mp4 13:07

  *   1-7 项目多模块规划与自动构建打包.mp4 16:11

*   第2章 项目关键技术准备,学习通用的数据处理技术/

  *   2-1 本章概览.mp4 04:00

  *   2-2 IPv4和数值转换.mp4 10:51

  *   2-3 IP地址简写和全写的格式转换.mp4 04:23

  *   2-4 IP地址二分查找.mp4 12:24

  *   2-5 Spark自定义IP函数.mp4 04:26

  *   2-6 初识Grok通用数据解析器.mp4 15:57

  *   2-7 在程序中解析Grok.mp4 07:23

  *   2-8 自定义Grok表达式.mp4 06:37

  *   2-9 Grok工具类封装.mp4 05:57

  *   2-10 在Spark中集成Grok.mp4 09:43

  *   2-11 Grok的序列化问题与源码修改.mp4 05:48

  *   2-12 Spark源码优化,支持对MySQL的数据进行更新

  *   2-13 【阶段作业】如何读取Grok的资源文件

*   第3章 项目数据准备,操练基于Spark的数据开发与优化/

  *   3-1 本章概览.mp4 01:31

  *   3-2 项目业务数据.mp4 06:29

  *   3-3 生成IP、域名、IP位置的中间数据(上).mp4 09:05

  *   3-4 生成IP、域名、IP位置的中间数据(下).mp4 13:56

  *   3-5 生成域名备案、IP位置、违规实体数据.mp4 09:43

  *   3-6 基于Grok模拟安全访问日志.mp4 16:55

  *   3-7 安全访问日志生成之广播变量优化.mp4 02:49

  *   3-8 【阶段作业】超大广播变量如何优化?

*   第4章 初识OLAP数仓架构/

  *   4-1 本章概览.mp4 01:09

  *   4-2 基于Lambda架构的数仓.mp4 05:54

  *   4-3 基于Kappa架构的数仓.mp4 02:53

  *   4-4 基于实时OLAP架构的数仓.mp4 06:19

  *   4-5 【面试官来啦】面试讨论题

*   第5章 详解数据仓库基础理论,掌握数据仓库的实施流程/

  *   5-1 本章概览.mp4 02:42

  *   5-2 数据仓库的定义.mp4 05:25

  *   5-3 3NF范式建模.mp4 04:23

  *   5-4 Kimball和Inmon数据仓库架构.mp4 04:57

  *   5-5 数据仓库建模方法.mp4 06:26

  *   5-6 事实表与维度表.mp4 05:58

  *   5-7 星型、雪花和星座维度模型.mp4 03:27

  *   5-8 数据仓库构建流程.mp4 05:21

  *   5-9 数据仓库分层模型.mp4 08:48

  *   5-10 【面试官来啦】面试讨论题

*   第6章 【项目实战第一篇】项目业务流程与ODS层数据同步/

  *   6-1 课程目录.mp4 01:25

  *   6-2 项目业务流程与技术架构.mp4 03:26

  *   6-3 ODS数据同步技术架构.mp4 05:10

  *   6-4 基于HDFS API的数据同步.mp4 17:30

  *   6-5 基于HDFS API的数据同步工具封装.mp4 17:37

  *   6-6 业务数据库的数据同步.mp4 11:48

  *   6-7 【阶段作业】Spark如何读取配置文件?

  *   6-8 【阶段作业】HDFS数据同步多线程优化

*   第7章 快速上手OLAP分析引擎ClickHouse/

  *   7-1 本章概览.mp4 01:56

  *   7-2 初识OLAP分析引擎ClickHouse.mp4 13:10

  *   7-3 ClickHouse与MySQL、Hbase、Elasticsearch.mp4 05:38

  *   7-4 ClickHouse单机版安装.mp4 02:22

  *   7-5 ClickHouse快速入门.mp4 06:55

  *   7-6 ClickHouse-client使用.mp4 14:28

  *   7-7 ClickHouse常用的数据格式

  *   7-8 可视化工具DBeaver安装配置.mp4 05:35

  *   7-9 ClickHouse表引擎快速入门.mp4 05:43

  *   7-10 ClickHouse学习建议.mp4 07:44

*   第8章 基于Spark源码自定义ClickHouse外部数据源,简化数据写入流程/

  *   8-1 本章概览.mp4 02:15

  *   8-2 JDBC操作ClickHouse.mp4 15:35

  *   8-3 使用Spark将数据写入ClickHouse.mp4 14:45

  *   8-4 Spark写ClickHouse的配置化改造.mp4 13:13

  *   8-5 在Spark中集成写ClickHouse的通用能力.mp4 22:52

  *   8-6 基于Spark源码自定义ClickHouse外部数据源.mp4 20:46

*   第9章 数仓高级之维度模型设计/

  *   9-1 本章概览.mp4 02:24

  *   9-2 维度相关基本概念.mp4 05:43

  *   9-3 维度设计的基本方法.mp4 03:08

  *   9-4 维度设计的反规范化.mp4 03:08

  *   9-5 一致性维度集成.mp4 03:57

  *   9-6 维度模型设计原则和方式.mp4 10:07

  *   9-7 缓慢变化维度SCD.mp4 12:40

  *   9-8 维度的层次关系.mp4 06:29

  *   9-9 其他常见的维度模型.mp4 06:05

  *   9-10 【面试官来啦】面试讨论题

*   第10章 【项目实战第二篇】构建项目公共维度层/

  *   10-1 本章概览.mp4 01:56

  *   10-2 反规范化维度合并之应用内容的模型设计与实现.mp4 18:41

  *   10-3 公共方法封装.mp4 04:41

  *   10-4 维度合并拆分之IP域名备案模型设计.mp4 02:28

  *   10-5 IP域名备案维度代码实现.mp4 08:43

  *   10-6 违规IP域名数据入库.mp4 07:42

  *   10-7 维度层次结构扁平化之IP地址段区域维度模型设计.mp4 03:46

  *   10-8 IP地址段区域维度代码实现.mp4 10:26

  *   10-9 【阶段作业】ClickHouse的覆盖写功能

*   第11章 ClickHouse的MergeTree系列引擎原理、实践与优化/

  *   11-1 本章概览.mp4 02:29

  *   11-2 表引擎概述.mp4 04:36

  *   11-3 MergeTree引擎.mp4 14:07

  *   11-4 表/列的TTL生命周期

  *   11-5 数据片段存储合并机制与自定义分区.mp4 12:41

  *   11-6 主键、索引、数据标记的工作机制.mp4 08:34

  *   11-7 性能优化利器之跳数索引的基本使用.mp4 26:18

  *   11-8 性能优化利器之跳数索引实现原理与使用场景.mp4 11:31

  *   11-9 【重难点梳理】性能优化利器之跳数索引

  *   11-10 性能优化利器之Projection.mp4 18:30

  *   11-11 【重难点梳理】性能优化利器之Projection

  *   11-12 【阶段作业】Projection的使用有哪些限制?

  *   11-13 ReplacingMergeTree引擎.mp4 09:10

  *   11-14 【重难点梳理】ReplacingMergeTree引擎

  *   11-15 SummingMergeTree引擎.mp4 05:22

  *   11-16 【重难点梳理】SummingMergeTree引擎

  *   11-17 AggregatingMergeTree引擎.mp4 11:18

  *   11-18 【重难点梳理】AggregatingMergeTree引擎

  *   11-19 CollapsingMergeTree引擎.mp4 08:32

  *   11-20 【重难点梳理】CollapsingMergeTree引擎

  *   11-21 VersionedCollapsingMergeTree引擎.mp4 04:21

  *   11-22 【重难点梳理】VersionedCollapsingMergeTree引擎

  *   11-23 MergeTree系列引擎选型对比.mp4 11:09

  *   11-24 数据实时更新删除.mp4 13:02

  *   11-25 【重难点梳理】如何实现数据的实时更新删除

*   第12章 数仓高级之事实表模型设计/

  *   12-1 本章概览.mp4 01:34

  *   12-2 事实表设计过程.mp4 09:10

  *   12-3 事务、无事实事实表模型设计.mp4 08:03

  *   12-4 多事务事实表模型设计.mp4 06:58

  *   12-5 周期快照事实表模型设计.mp4 04:24

  *   12-6 累积快照事实表模型设计.mp4 08:12

  *   12-7 聚集事实表模型设计.mp4 03:17

  *   12-8 六类事实表对比.mp4 03:21

  *   12-9 【面试官来啦】面试讨论题

*   第13章 【项目实战第三篇】数据清洗加工,构建项目数据明细层/

  *   13-1 本章概览.mp4 01:58

  *   13-2 事务无事实事实表模型建模.mp4 05:40

  *   13-3 日志事务事实表代码实现(上).mp4 16:20

  *   13-4 日志事务事实表代码实现(下).mp4 13:53

  *   13-5 日志拦截无事实事实表代码实现.mp4 08:46

  *   13-6 累计快照事实表建模与代码实现.mp4 06:50

  *   13-7 Spark资源参数调优.mp4 18:42

  *   13-8 【重难点梳理】Spark资源参数调优

  *   13-9 大数据量场景下的程序部署与优化实践.mp4 11:19

  *   13-10 周期性快照事实表模型设计与实现.mp4 09:57

  *   13-11 【重难点梳理】周期性快照事实表模型设计与实现

  *   13-12 【面试官来啦】面试讨论题

  *   13-13 【阶段作业】结合数据进行模型设计

*   第14章 构建ClickHouse分布式集群,掌握分布式环境的数据查询、写入优化方案/

  *   14-1 本章概览.mp4 01:08

  *   14-2 集群规划与环境准备.mp4 09:02

  *   14-3 ClickHouse集群安装配置.mp4 13:55

  *   14-4 ClickHouse集群功能验证.mp4 12:05

  *   14-5 ClickHouse的原子写入与去重.mp4 04:05

  *   14-6 ClickHouse分布式集群部署

  *   14-7 Zookeeper关键优化点

  *   14-8 复制表与副本同步机制.mp4 07:21

  *   14-9 分布式表与本地表.mp4 06:13

*   第15章 【项目实战第四篇】负载均衡与高可用方案实践,自定义Spark写本地分片表策略/

  *   15-1 本章概览.mp4 01:40

  *   15-2 负载均衡与高可用五问.mp4 03:54

  *   15-3 分布式请求的副本高可用和负载均衡.mp4 03:16

  *   15-4 基于代码层面的负载均衡与高可用.mp4 03:17

  *   15-5 基于Nginx反向代理TCP与HTTP的负载均衡与高可用.mp4 18:31

  *   15-6 【重难点梳理】基于Nginx反向代理TCP/HTTP的负载均衡与高可用

  *   15-7 基于Chproxy的负载均衡与高可用.mp4 14:32

  *   15-8 【重难点梳理】基于Chproxy的负载均衡与高可用

  *   15-9 Spark如何写本地表方案.mp4 05:00

  *   15-10 Spark写本地表之随机策略代码实现.mp4 16:16

  *   15-11 Spark写本地表之轮询策略代码实现.mp4 04:39

  *   15-12 大数据量场景写ClickHouse集群的程序部署与优化.mp4 09:34

  *   15-13 Spark自定义分片路由与方案总结.mp4 03:24

  *   15-14 【面试官来啦】面试讨论题

  *   15-15 【阶段作业】Spark实现分片key的自定义路由策略

*   第16章 【项目实战第五篇】如何选择合适的维度表存储方案/

  *   16-1 本章概览.mp4 02:01

  *   16-2 Log系列引擎.mp4 05:47

  *   16-3 MySQL引擎.mp4 09:30

  *   16-4 【重难点梳理】MySQL引擎

  *   16-5 HDFS引擎与HA配置.mp4 09:32

  *   16-6 【重难点梳理】HDFS引擎与HA配置

  *   16-7 高性能数据检索的RocksDB引擎.mp4 09:44

  *   16-8 【重难点梳理】高性能数据检索的RocksDB引擎

  *   16-9 Kafka引擎

  *   16-10 JDBC引擎引擎

  *   16-11 Merge表引擎.mp4 05:03

  *   16-12 【重难点梳理】Merge表引擎

  *   16-13 Join表引擎.mp4 07:51

  *   16-14 【重难点梳理】Join表引擎

  *   16-15 深入浅出ClickHouse数据字典(上).mp4 20:47

  *   16-16 深入浅出ClickHouse数据字典(下).mp4 15:25

  *   16-17 【重难点梳理】深入浅出ClickHouse数据字典

  *   16-18 分布式场景的表关联子查询的运行流程与优化.mp4 04:29

  *   16-19 分布式场景下的维度表存储选型优化.mp4 05:59

  *   16-20 项目的维度表存储优化.mp4 11:52

  *   16-21 【重难点梳理】项目的维度表存储优化

*   第17章 【项目实战第六篇】数据汇总层与应用查询优化/

  *   17-1 本章概览.mp4 01:40

  *   17-2 主键与排序键优化.mp4 06:11

  *   17-3 聚合查询优化.mp4 04:45

  *   17-4 物化视图提速.mp4 05:05

  *   17-5 DWS层之IP流量监测主题.mp4 14:43

  *   17-6 【重难点梳理】DWS层之构建IP流量监测

  *   17-7 DWS层之区域流量分析主题.mp4 11:20

  *   17-8 【重难点梳理】DWS层之构建区域流量分析主题

  *   17-9 构建数据应用层(ADS).mp4 16:42

  *   17-10 【重难点梳理】构建AWS数据应用层

  *   17-11 应用查询优化案例.mp4 06:21

  *   17-12 【重难点梳理】应用查询优化案例

  *   17-13 数据写入与查询优化常用经验法则.mp4 02:12

  *   17-14 【阶段作业】构建违规IP/域名的上下行流量聚集事实表汇总模型

*   第18章 【项目实战第七篇】基于轻量级BI工具的数据展示与可视化监控/

  *   18-1 本章概览.mp4 01:41

  *   18-2 基于轻量级BI工具的数据可视化效果.mp4 02:16

  *   18-3 Superset环境搭建与基本使用.mp4 13:02

  *   18-4 【重难点梳理】Superset环境搭建与基本使用

  *   18-5 Superset查询分析可视化展示.mp4 10:50

  *   18-6 Grafana的安装与ClickHouse数据源管理.mp4 07:15

  *   18-7 【重难点梳理】Grafana的安装与ClickHouse数据源管理

  *   18-8 Granfana查询分析可视化展示.mp4 09:14

  *   18-9 ClickHouse监控概述.mp4 02:32

  *   18-10 ClickHouse系统表+ Granfana可视化监控.mp4 02:54

  *   18-11 Promethues安装与ClickHouse的metric采集.mp4 04:26

  *   18-12 【重难点梳理】Promethues安装与ClickHouse的metric采集

  *   18-13 prometheus + Granfana可视化监控.mp4 03:34

*   第19章 数仓管理之调度系统DolphinScheduler 3.x/

  *   19-1 本章概览.mp4 03:51

  *   19-2 我们为什么需要配合调度系统.mp4 07:32

  *   19-3 DolphinScheduler单机部署.mp4 04:32

  *   19-4 快速上手DolphinScheduler.mp4 12:27

  *   19-5 DolphinScheduler源码编译.mp4 02:43

  *   19-6 DolphinScheduler伪集群安装.mp4 14:45

  *   19-7 【重难点梳理】dolphinscheduler集群部署

  *   19-8 工作流管理之子流程管理.mp4 03:41

  *   19-9 工作流管理之依赖检查管理.mp4 07:51

  *   19-10 工作流管理之Conditions条件分支判断.mp4 05:16

  *   19-11 工作流管理之Switch条件分支判断.mp4 04:24

  *   19-12 本地和HDFS两种文件资源管理方式.mp4 15:52

  *   19-13 内置参数、本地参数、全局参数和参数传递.mp4 14:12

  *   19-14 如何动态生成自定义参数.mp4 08:15

  *   19-15 Spark任务节点管理.mp4 10:05

  *   19-16 流程告警管理.mp4 07:11

  *   19-17 数仓项目之文件数据源同步.mp4 20:37

  *   19-18 数仓项目之Spark工作流调度.mp4 09:23

*   第20章 构建现代数据技术栈的元数据管理平台/

  *   20-1 本章概览.mp4 04:00

  *   20-2 为什么数仓管理中需要元数据管理.mp4 11:50

  *   20-3 元数据体系架构的演进.mp4 10:12

  *   20-4 DataHub的元数据体系架构.mp4 07:03

  *   20-5 DataHub元数据系统搭建.mp4 09:41

  *   20-6 基于Pull(拉取)流程的元数据摄取.mp4 03:29

  *   20-7 基于Pull的元数据摄取实践.mp4 06:56

  *   20-8 DataHub的MetaData元数据模型.mp4 07:48

  *   20-9 基于Kafka的Sink接收器同步MySQL元数据.mp4 06:54

  *   20-10 ClickHouse的元数据摄取实践.mp4 06:08

  *   20-11 可视化BI工具的元数据摄取.mp4 02:52

  *   20-12 构建数据集之间的血缘链路实践.mp4 05:18

  *   20-13 构建数据集与可视化BI工具的血缘链路实践.mp4 04:08

  *   20-14 自定义基于元数据事件的实时响应流程

*   第21章 通用数据质量管理实践/

  *   21-1 本章概览.mp4 03:29

  *   21-2 如果数仓不考虑数据质量会有什么危害.mp4 06:31

  *   21-3 数据质量评估标准.mp4 05:55

  *   21-4 数据质量管理架构与数据模型.mp4 08:23

  *   21-5 通用数据质量管理工具之配置逻辑.mp4 16:28

  *   21-6 通用数据质量管理工具之代码实践.mp4 19:54

  *   21-7 通用数据质量管理工具之历史周期性质量指标对比.mp4 07:36

  *   21-8 单数据源的检查之唯一性校验.mp4 06:30

  *   21-9 单数据源的检查之表字段长度校验.mp4 04:51

  *   21-10 单数据源的检查之表记录数检查.mp4 03:20

  *   21-11 单数据源的检查之枚举值校验.mp4 04:10

  *   21-12 多数据源检查之准确性检查.mp4 05:39

  *   21-13 【阶段作业】及时性检查和多数据源的值对比功能