飞豹客 · 教程详情

大数据中级进修课

体系课

27 人浏览发布 2026-06-09更新 2026-07-10

大数据中级进修课是专门为职场人士量身打造的深入进阶在线课程，本课程提供了互联网、在线教育、电商推荐、电信行业等多个不同领域项目。（购买课程后加QQ1976518

* 阶段一中级进修课-技术点/

* 第一章 Hadoop集群配置Kerberos安全认证机制/

* Kerberos简介/

* 01-Kerberos简介

* 环境准备/

* 02-环境搭建-01-配置网络和主机名

* 02-环境搭建-02-配置ntp设置用户以及上传软件包

* Kerberos搭建/

* 03-01-KerberosServer配置

* 03-02-Kerberos客户端配置

* 03-03-规划为Hadoop中各个服务分配Kerberos的principal

* 配置HDFS/

* 04-01-配置HDFS-创建Kerberos对应的账户设置Keytab文件

* 04-02-配置HDFS-编译executor-container

* 04-03-配置HDFS-配置lib-native本地运行库

* 04-04-配置HDFS-配置core-site-hdfs-size以及env.sh等配置文件

* 04-05-配置HDFS-配置https证书以及ssl配置文件

* 04-06-配置HDFS-启动HDFS测试

* 配置YARN/

* 05-配置YARN并启动测试

* 配置HIVE/

* 06-配置和启动测试HIVE

* 使用代码集成测试/

* 07-使用Java代码集成测试

* 第二章 HDP 集群环境安装配置/

* 环境检查/

* 01-前言

* 安装前的环境配置/

* 02-环境配置-01

* 02-环境配置-02

* 02-环境配置-03

* 部署HDP相关软件包的yum仓库/

* 03-Ambari-HDP需要的软件包配置到yum本地库中

* 安装AmbariServer/

* 04-安装Ambari-Server

* 在Ambari Server UI中进行基础安装配置/

* 05-通过Ambari-Server-UI部署集群

* 测试以及安装其他服务/

* 06-01-添加hadoop组件并测试

* 06-02-添加HBase并测试

* 06-03-添加Yarn和MR并测试

* 06-04-添加Kafka并测试

* 06-05-添加Spark并测试

* 第三章 CDH 集群环境安装配置/

* 准备/

* 1.大数据架构和技术选型

* 2.基础环境准备-1

* 3.基础环境准备-2

* Cloudera Manager/

* 4.CM的产生背景和应用场景

* 5.CM介绍

* 6.集群服务规划

* 7.CM基础环境准备

* 8.CM基础环境准备-扩展资源

* 9.CM基础环境准备-3

* 10.CM基础环境准备-4

* 11.CM安装Server和Agent

* 12.CM安装Service服务

* CDH组件安装/

* 13.CM安装HDFS服务

* 14.CM添加Yarn服务

* 15.CM添加Zookeeper服务

* 16.CM添加Hive服务

* 17.CM添加oozie服务

* 18.CM添加Sqoop服务

* 19.CM添加HBase服务

* 20.CM添加Spark服务

* 21.CM添加Hue服务

* 22.CM添加新服务器

* 第四章 kettle入门教程/

* kettle入门/

* 01 kettle简介

* 02 kettle下载

* 03 kettle部署

* 04 kettle简介

* 05 kettle快速体验

* 06 执行结果

* 07 kettle核心概念

* kettle输入控件/

* 01 CSV文件输入

* 02 文本文件输入

* 03 Excel输入

* 04 多文件合并

* 05 get data from xml

* 06 json input

* 07 生产记录

* 08 表输入

* kettle输出控件/

* 01 Excel输出

* 02 文本文件输出

* 03 SQL文件输出

* 04 表输出

* 05 更新

* 06 插入更新

* 07 删除

* kettle转换控件/

* 01 concat fields

* 02 值映射

* 03 增加常量

* 04 增加序列

* 05 字段选择

* 06 计算器

* 07 字符串剪切、替换、操作

* 08 去除重复记录、排序记录

* 09 唯一行（哈希值）

* 10 拆分字段

* 11 列拆分为多行

* 12 列转行

* 13 行转列

* 14 行扁平化

* kettle应用控件/

* 01 替换NULL值

* 02 写日志

* kettle流程控件/

* 01 switch case

* 02 过滤记录

* 03 空操作

* 04 中止

* kettle查询控件/

* 01 Http client

* 02 数据库查询

* 03 数据库连接

* 04 流查询

* kettle连接控件/

* 01 合并记录

* 02 记录关联（笛卡尔积）

* 03 记录集关联

* kettle统计控件/

* 01 分组

* kettle映射控件/

* 01 映射

* kettle脚本控件/

* 01 javascript 代码

* 02 java代码

* 03 执行SQL脚本

* kettle作业和参数/

* 01 作业

* 02 全局参数

* 03 常量传递

* 04 转换命名参数

* 05 设置变量、获取变量

* 06 作业中设置变量

* 07 发送邮件

* 第五章 kettle 8.2 ETL项目实战教程/

* sakila项目简介/

* 01 sakila业务简介

* 02 sakila数据库的表和总体设计规范

* 03 sakila数据库表之间的关系和字段

* 04 创建sakila数据库和插入数据

* 05 维度建模的基本概念

* 06 维度建模的三种模式和命名规范

* 07 管理维度表各种键和缓慢变化维的处理

* 09 sakila数据仓库模型简介

* 10 创建sakila_dwh数据仓库的库和表

* 加载日期维度/

* 01 dim_date表结构

* 02 生成十年记录和增加日期序列

* 03 生成日期date

* 04 生成短、中、长、全日期

* 05 生成天在年和月的第几天、星期名称和缩写、一年的第几周和一月的第几周

* 06 生成月份、月的名称、月的缩写、两位和四位的年

* 07 生成季度和季度名称

* 08 生成是否周的第一天和周的最后一天

* 09 是否为月的第一天和最后一天、年季度、年月份、年月缩写、日期代理键

* 10 加载数据到日期维度表

* 加载时间维度/

* 01 时间维度表结构

* 02 生成时数据

* 03 生成分秒的数据、进行时分秒的笛卡儿积关联输出

* 04 生成时间属性、加载时间维度表数据

* 加载员工维度/

* 01 员工维度表结构

* 02 获取员工维度表上次更新的时间

* 03 从员工表中加载最新数据、字段选择、值映射

* 04 加载SCD2的员工维度表数据

* 加载用户维度/

* 01 用户维度表结构

* 02 获取上次更新的时间、从customer表中加载最新的数据

* 03 构建映射、查询Address、City、Country表

* 04 判断是否有第二地址、地址连接、字段选择

* 05 字段选择、值映射、加载最新用户维度数据

* 加载商店维度/

* 01 商店维度表结构

* 02 加载商店维度数据

* 加载演员维度/

* 01 演员维度表结构

* 02 加载最新的演员维度数据

* 加载电影维度/

* 01 电影维度表结构

* 02 获取上次更新时间和最新表数据

* 03 查询语言和评级字段映射

* 04 将special_features列拆分为多行、添加常量Yes和No、将special_feature列转行

* 05 将special_feature的Null进行替换

* 06 获取电影分类的id和电影分类的名称

* 07 增加Yes常量、将category进行列转行

* 08 将category的null替换为No

* 09 加载处理好的数据到电影维度表

* 10 计算演员的权重因子、更新dim_film_actor_bridge维度表

* 加载租赁事实/

* 01 租赁事实表结构

* 02 加载租聘事实表数据、字段选择

* 03 处理租聘周期

* 04 获取film_key、customer_key、staff_key、store_key

* 05 添加常量count_rentals、加载事实表数据

* 加载作业/

* 01 构建load_rentals作业

* 第六章 kettle 8.2 大数据整合/

* 开发环境搭建/

* 01 安装环境简介

* 02-安装node-1虚拟机系统

* 03 使用SecureCRT连接操作系统

* 04 安装CDH安装环境所需依赖包

* 05 卸载Open jdk

* 06 关闭防火墙和安全防护

* 07 安装lrzsz

* 08 安装jdk

* 09 安装和配置并启动NTP服务

* 10 修改hosts文件

* 11 克隆出虚拟机node-2

* 12 克隆虚拟机node-3

* 13 修改node-1的内存信息、使用SecureCRT连接node-2和node-3

* 14 配置免密登录

* 15 mysql安装

* 16 mysql允许远程访问

* 17 创建hive和amon数据库

* 18 在node-1上安装Cloudera Manager 01

* 19 在node-1上安装Cloudera Manager 02

* 20 cm server 和 agent的启动

* 21 CDH的安装

* kettle整合Hadoop/

* 01 Hadoop环境准备

* 02 kettle配置Hadoop的环境

* 03 Hadoop file input组件

* 04 Hadoop file output

* kettle整合hive/

* 01 Hive数据的初始化

* 02 kettle配置Hive的环境

* 03 从hive中读取数据

* 04 把数据写入到hive

* 05 通过Hadoop copy files作业组件把数据加载到hive数据库中

* 06 执行Hive的HiveSQL语句

* kettle整合hbase/

* 01 HBase初始化

* 02 HBase Input控件

* 03 HBase Output控件

* 第七章 Apache Druid/

* druidi基础部分/

* 1-druid介绍

* 2-druid单机版安装

* 3-druid单机版加载&查询数据

* 4-druid重要概念roll-up

* 5-druid重要概念-列式存储

* 6-druid中的datasource与segment概念介绍

* 7-segment的存储结构

* 8-druid中的位图索引

* 9-druid架构及原理介绍

* druid集群部署/

* 10druid集群搭建-historical配置

* 11druid集群搭建-middlemanager配置

* 12-druid集群搭建-broker节点配置

* 13-druid集群搭建coordinator&overlord

* 14-druid集群搭建启动验证

* 15-druid离线-本地索引方式加载数据

* druid数据摄取/

* 16-druid离线-hadoopdruidindexer方式摄取数据

* 17-druid-实时摄取数据-kafkaindexingservice

* 01-druid数据查询-filter-selector

* druid数据查询/

* 2-正则过滤器（regexfilter)

* 03-druid数据查询-(logical expression filter)

* 04-druid数据查询-filter-in过滤器

* 05-druid数据查询(boundfilter)

* 06-granularity-simple

* 07-granularity(duration&period)

* 08-aggregator之countAggregator&sumAggregator

* 09-aggregator-Min&MaxAggregator

* 10-aggregator-去重聚合器datasketch-aggregator

* 11-postAggregator-点击率

* 12-时间序列查询

* 13-topN查询

* 14-groupBy查询

* druid项目实战/

* 15-druid项目介绍

* 16-druid项目日志模拟程序

* 17-模拟程序发送日志数据到kafka

* 18-项目案例预处理

* 19-flink生产消息到kafka

* 20-druid从kafka实时摄取数据

* 21-项目案例可视化

* 第八章电信信号强度诊断项目/

* 项目概述/

* 001-电信信号强度诊断项目-项目总体阶段介绍

* 002-电信信号强度诊断项目-第一阶段介绍

* 003-电信信号强度诊断项目-项目背景介绍

* 004-电信信号强度诊断项目-系统功能模块概述

* 005-电信信号强度诊断项目-系统功能模块概述总结

* 006-电信信号强度诊断项目-后端模块介绍概述总结

* 007-电信信号强度诊断项目-数据处理流程

* 008-电信信号强度诊断项目-逻辑架构介绍

* 009-电信信号强度诊断项目-历史数据介绍-networkqualityinfo

* 010-电信信号强度诊断项目-历史数据介绍-app_traffic

* 011-电信信号强度诊断项目-历史数据介绍-cell_strength

* 012-电信信号强度诊断项目-历史数据介绍-cell_strength

* 013-电信信号强度诊断项目-历史数据介绍-device与network

* 014-电信信号强度诊断项目-历史数据实例数据

* 015-电信信号强度诊断项目-详细需求介绍-首页面

* 016-电信信号强度诊断项目-详细需求介绍-信号覆盖

* 017-电信信号强度诊断项目-详细需求介绍-网络质量

* 018-电信信号强度诊断项目-详细需求介绍-数据连接

* 019-电信信号强度诊断项目-详细需求介绍-热门APP

* 020-电信信号强度诊断项目-详细需求介绍-热门手机

* 021-电信信号强度诊断项目-详细需求介绍-热门手机

* 022-电信信号强度诊断项目-详细需求介绍-个人用户

* 023-电信信号强度诊断项目-项目设计策略

* 024-电信信号强度诊断项目-技术选型

* 025-电信信号强度诊断项目-离线数据入库流程

* 026-电信信号强度诊断项目-离线数据计算及总结

* 027-电信信号强度诊断项目-实时业务数据采集、数据计算及总结

* 028-电信信号强度诊断项目-结果数据创建索引介绍及总结

* 029-电信信号强度诊断项目-地标的配置文件及浏览器兼容性

* 030-电信信号强度诊断项目-第一阶段总结

* 离线数据入库/

* 031-电信信号强度诊断项目-第二阶段目标及数据上传

* 032-电信信号强度诊断项目-创建表及数据入库

* 033-电信信号强度诊断项目-创建表及数据入库验证及总结

* 034-电信信号强度诊断项目-数据拆分需求及实现思路

* 035-电信信号强度诊断项目-数据拆分map代码

* 036-电信信号强度诊断项目-数据拆分reduce代码

* 037-电信信号强度诊断项目-数据拆分驱动代码

* 038-电信信号强度诊断项目-数据拆分效果

* 039-电信信号强度诊断项目-数据拆分总结

* 040-电信信号强度诊断项目-第二阶段总结

* 离线数据整理/

* 041-电信信号强度诊断项目-第三阶段概述及步骤

* 042-电信信号强度诊断项目-第三阶段补充

* 043-电信信号强度诊断项目-第三阶段目标总结

* 044-电信信号强度诊断项目- 实时业务SQL

* 045-电信信号强度诊断项目- 实时业务SQL总结

* 046-电信信号强度诊断项目- 首页用户分布SQL

* 047-电信信号强度诊断项目- 平均上行-下行速率SQL

* 048-电信信号强度诊断项目- 热门APP排名SQL

* 049-电信信号强度诊断项目- 热门手机流量排名SQL

* 050-电信信号强度诊断项目- 报表SQL整理思路介绍

* 051-电信信号强度诊断项目- 信号强度覆盖SQL

* 052-电信信号强度诊断项目- 剩余6个模块的SQL

* 053-电信信号强度诊断项目- 相同结果比表SQL整理

* 054-电信信号强度诊断项目- 相同结果比表SQL拆分

* 055-电信信号强度诊断项目- 结果表字段提取（确定）

* 056-电信信号强度诊断项目- 结果表字段补充

* 057-电信信号强度诊断项目-结果表NWQuality特殊字段的逻辑

* 058-电信信号强度诊断项目-结果表Signal_Strength特殊字段的逻辑

* 059-电信信号强度诊断项目-结果表app_traffic特殊字段的逻辑

* 060-电信信号强度诊断项目-结果表DataConnection特殊字段的逻辑

* 061-电信信号强度诊断项目-特殊字段逻辑总结

* 062-电信信号强度诊断项目-创建自定义逻辑工程

* 063-电信信号强度诊断项目-处理逻辑1-2及创建自定义逻辑主类

* 064-电信信号强度诊断项目-处理逻辑3-信号强度转化代码

* 065-电信信号强度诊断项目-处理逻辑3-信号强度转化代码运行效果

* 066-电信信号强度诊断项目-处理逻辑4-networktype转化需求整理

* 067-电信信号强度诊断项目-处理逻辑4-networktype转化代码1

* 068-电信信号强度诊断项目-处理逻辑4-networktype转化代码2

* 069-电信信号强度诊断项目-处理逻辑4-networktype转化效果及总结

* 070-电信信号强度诊断项目-处理逻辑5-lanmark转化需求及代码

* 071-电信信号强度诊断项目-处理逻辑5-补充

* 072-电信信号强度诊断项目-处理逻辑6-厂商型号拼接

* 073-电信信号强度诊断项目-处理逻辑7-os version拼接

* 074-电信信号强度诊断项目-处理逻辑8-包名是否为all

* 075-电信信号强度诊断项目-NWQuality提取数据SQL编写

* 076-电信信号强度诊断项目-NWQuality提取数据SQL运行效果

* 077-电信信号强度诊断项目-NWQuality提取数据总结

* 078-电信信号强度诊断项目-Signal_Strength提取数据SQL编写

* 079-电信信号强度诊断项目-Signal_Strength提取数据效果及总结

* 080-电信信号强度诊断项目-app_traffic-data_connection提取数据效果

* 081-电信信号强度诊断项目-tb_counts提取数据

* 082-电信信号强度诊断项目-结果表数据加工

* 083-电信信号强度诊断项目-phoenix介绍及安装

* 084-电信信号强度诊断项目-phoenix介绍及安装总结

* 085-电信信号强度诊断项目-phoenix使用方式

* 086-电信信号强度诊断项目-phoenix索引类型

* 087-电信信号强度诊断项目-phoenix测试索引准备数据

* 088-电信信号强度诊断项目-phoenix测试索引结论

* 089-电信信号强度诊断项目-创建结果表

* 090-电信信号强度诊断项目-结果表加载数据

* 090-电信信号强度诊断项目-业务类型整理

* 091-电信信号强度诊断项目-项目运行

* 092-电信信号强度诊断项目-项目代码结构介绍

* 093-电信信号强度诊断项目-NWQuality创建索引1

* 094-电信信号强度诊断项目-NWQuality创建索引2

* 095-电信信号强度诊断项目-NWQuality创建索引效果及总结

* 096-电信信号强度诊断项目-Signal_Strength创建索引

* 097-电信信号强度诊断项目-DataConnection-APP_TRAFFIC创建索引

* 098-电信信号强度诊断项目-验证索引生效

* 099-电信信号强度诊断项目-报表类型总结

* 100-电信信号强度诊断项目-echarts柱状图饼状图介绍

* 101-电信信号强度诊断项目-热力图代码介绍

* 102-电信信号强度诊断项目-瓷砖图代码介绍

* 103-电信信号强度诊断项目-街景图思路介绍

* 104-电信信号强度诊断项目-散点图介绍

* 105-电信信号强度诊断项目-第三阶段总结1-2步

* 106-电信信号强度诊断项目-第三阶段总结3-4步

* 107-电信信号强度诊断项目-第三阶段总结5步

* 108-电信信号强度诊断项目-第三阶段总结-界面类型

* 实时数据生成及计算/

* 109-电信信号强度诊断项目-第四阶段介绍

* 110-电信信号强度诊断项目-第四阶段介绍总结

* 111-电信信号强度诊断项目-开启mysqlbinlog-创建数据库及表

* 112-电信信号强度诊断项目-生成系统插入数据

* 113-电信信号强度诊断项目-生成系统插入数据2

* 114-电信信号强度诊断项目-canal安装部署

* 115-电信信号强度诊断项目-canal解析代码上

* 116-电信信号强度诊断项目-canal解析代码下

* 117-电信信号强度诊断项目-canal代码运行效果

* 118-电信信号强度诊断项目-Flume数据收集1

* 119-电信信号强度诊断项目-Flume数据收集2

* 120-电信信号强度诊断项目-Flume收集数据验证（历史数据收集成功）

* 121-电信信号强度诊断项目-Flume收集数据验证（实时数据收集成功）

* 122-电信信号强度诊断项目-实时计算流程介绍及创建项目

* 123-电信信号强度诊断项目-实时计算代码

* 124-电信信号强度诊断项目-实时计算动态效果

* 125-电信信号强度诊断项目-实时业务-数据成产收集总结

* 126-电信信号强度诊断项目-实时业务-数据计算总结

* 第九章 zeppelin实战/

* zeppelin介绍/

* 01.【zeppelin实战】课程目标和课程内容介绍

* 02.【zeppelin实战】zeppelin介绍-基本介绍

* 03.【zeppelin实战】zeppelin介绍-zeppelin的使用场景

* 04.【zeppelin实战】zeppelin介绍-zeppelin的源码结构介绍

* zeppelin的安装部署及入门案例/

* 05.【zeppelin实战】zeppelin的安装部署

* 06.【zeppelin实战】zeppelin的ui功能介绍

* 07.【zeppelin实战】zeppelin的入门案例

* zeppelin的interperter/

* 08.【zeppelin实战】zeppelin的interperter介绍

* 09.【zeppelin实战】zeppelin的interperter-shell的使用

* 10.【zeppelin实战】zeppelin的interperter-创建mysql解释器

* 11.【zeppelin实战】zeppelin的interperter-使用mysql解释器创建notebook

* 12.【zeppelin实战】zeppelin的interperter-创建hive解释器

* 13.【zeppelin实战】zeppelin的interperter-使用hive解释器创建notebook

* 14.【zeppelin实战】zeppelin的interperter-使用spark standalone环境运行任务

* 15.【zeppelin实战】zeppelin的interperter-使用spark yarn环境运行任务

* 16.【zeppelin实战】zeppelin的可视化

* zeppelin的自定义解析器/

* 17.【zeppelin实战】zeppelin的自定义解析器-mongodb环境安装

* 18.【zeppelin实战】zeppelin的自定义解析器-安装mongodb客户端并初始化数据

* 19.【zeppelin实战】zeppelin的自定义解析器-安装部署mongodb解析器

* 20.【zeppelin实战】zeppelin的自定义解析器-创建mongodb解析器和notebook

* 22.【zeppelin实战】zeppelin集成shiro权限认证

* 23.【zeppelin实战】zeppelin课程总结

* 第十章数据湖/

* 数据湖概念/

* 00-课程目标

* 01-1-1-企业的数据困扰

* 01-1-2-补充-结构化-半结构化-非结构化数据

* 01-2-数据湖的概念

* 01-3-数据湖-数仓-数据集市的区别

* 数据湖理论/

* 02-1-写时模式和读时模式

* 02-2-3种常见的数据湖实现方案

* 02-3-数据湖对企业的价值

* 02-4-数据湖概念的总结

* 02-5-数据湖的4个设计原则

* 数据处理、数据应用的几种架构/

* 03-Lambda架构的简单介绍

* 数据湖基于Hadoop、Spark的实现/

* 04-数据湖的核心以及和普通大数据分析平台的不同

* Delta Lake - 数据湖核心的增强/

* 05-1-DeltaLake的简介和重点特性解读

* 05-2-DeltaLake的使用形式

* Delta Lake - Quickstart/

* 06-1-DeltaLake创建表-读取表-覆盖表操作

* 06-2-DeltaLake有条件更新和合并操作

* 06-3-DeltaLake的数据版本控制

* 06-4-DeltaLake的事务日志

* Delta Lake 操作/

* 07-1-DeltaLake表分区和追加

* 07-2-DeltaLake-Schema验证

* 07-3-DeltaLake-更新和删除对Parquet数据文件的影响

* 07-4-DeltaLake-vacuum方法

* 07-5-DeltaLake-表常用工具和阶段总结

* Delta Lake 理论/

* 08-1-DeltaLake-事务日志概念回顾

* 08-2-DeltaLake-Schema演化相关概念回顾

* 08-3-DeltaLake-最佳实践和总结

* 企业数据湖应用案例分析/

* 09-1-案例需求分析

* 09-2-1-基础数据（中间数据）的准备

* 09-2-2-基础数据增加新列

* 09-2-3-统计每小时TOP10热门查询关键词

* 09-2-4-统计全天热门TOP100查询关键词

* 09-2-5-导出数据为普通parquet文件

* 09-3-第九章总结

* 基于AWS的云上数据湖实现方案介绍/

* 10-1-1云平台的基础概念

* 10-1-2-两类云平台和主流公有云平台介绍

* 10-1-3-IaaS-PaaS-SaaS的概念

* 10-1-4-云平台对企业的意义

* 10-2-1-AWS-S3简介

* 10-2-2-AWS-Athena分析框架简介

* 10-2-3-AWS-EMR-集群模式介绍

* 10-2-4-AWS-EMR-步骤运行模式介绍

* 10-2-5-AWS-Glue-ETl-简单介绍

* 10-2-6-AWS-其它辅助工具介绍和课程总结

* 第十一章 NiFi/

* NiFi概念和入门/

* 1.Nifi是什么

* 2.NiFi核心概念

* 3.NiFi架构

* 4.NiFi的性能

* 5.NiFi关键特性

* 6.NiFi安装-1

* 7.NiFi安装-2

* 8.了解NiFi处理器

* 9.了解Nifi其他组件

* 10.应用场景1

* 11.应用场景2-1

* 12.应用场景2

* 13.处理器类别

* 14.FlowFile属性

* 15.NiFi模版

* 16.监控NiFi

* 17.NiFi数据来源

* 18.常见问题

* 19.入门总结

* NiFi深入学习/

* 20.NiFi深入学习阶段大纲

* 21.Linux配置优化

* 22.NiFi集群知识点

* 23.内嵌ZK模式集群-1

* 24.内嵌ZK模式集群-2

* 25.外部ZK模式集群

* 26.NiFi集群知识点

* 27.NiFi集群总结

* 28.FlowFile生成器1

* 29.FlowFile生成器2

* 30.NiFi模版和组

* 31.FlowFile操作1

* 32.FlowFile操作2

* 33.使用表达式语言

* 34.NiFi监控1

* 35.NiFi监控2

* 36.NiFi监控总结

* 37.连接与关系

* 38.连接与关系总结

* NiFi典型案例/

* 39.离线同步Mysql数据到HDFS1

* 40.离线同步Mysql数据到HDFS2

* 41.离线同步Mysql数据到HDFS3

* 42.Json内容转换为Hive所支持的文本格式1

* 43.Json内容转换为Hive所支持的文本格式2

* 44.实时同步Mysql到Hive-1

* 45.实时同步Mysql到Hive-2

* 46.实时同步Mysql到Hive-3

* 47.Kafka使用-知识点

* 48.Kafka生产者案例

* 49.Kafka消费者案例

* 第十二章 TiDB/

* TiDB引入/

* 01-课程介绍

* 02-学习目标

* 03-数据库技术发展史

* 04-从MySQL到TiDB

* 05-TiDB概述

* 06-TiDB扩展知识-SQL-NoSQL-NewSQL-OLTP-OLAP

* TiDB架构特性/

* 07-TiDB整体架构

* 08-TiDB核心特性

* 09-TiDB存储和计算能力的保证

* TiDB安装部署/

* 10-TiDB安装部署方式选择

* 11-TiDB安装部署-Local单机版

* 12-TiDB安装部署-Docker集群版

* 13-其他依赖软件安装介绍

* TiDB实践案例/

* 14-TiDB-SQL操作

* 15-TiDB-读取历史数据

* 16-TiDB-整合Spark-TiSpark

* 17-TiDB数据迁移-TiDB-Lightning-1

* 18-TiDB数据迁移-TiDB-Lightning-2

* TiDB技术内幕/

* 19-TiDB技术内幕-存储

* 20-TiDB技术内幕-计算

* 21-TiDB技术内幕-调度

* TiDB源码剖析/

* 22-TiDB源码阅读步骤

* TiDB大厂实践/

* 23-TiDB大厂实践介绍

* 第十三章 superset可视化实战/

* superset的介绍/

* 01.【superset可视化】课程目标和课程内容介绍

* 02.【superset可视化】BI与报表工具的区别

* 03.【superset可视化】superset的介绍

* superset的安装部署及入门案例/

* 04.【superset可视化】superset的安装部署

* 05.【superset可视化】superset的入门案例

* 06.【superset可视化】superset的功能介绍

* 07.【superset可视化】mysql订单分析案例实战

* 08.【superset可视化】superset权限控制-权限介绍及匿名访问

* 09.【superset可视化】superset权限控制-角色介绍及管理操作

* 电商数据分析案例实战/

* 10.【superset可视化】电商数据分析案例实战-案例介绍

* 11.【superset可视化】电商数据分析案例实战-系统架构

* 12.【superset可视化】电商数据分析案例实战-准备数据集

* 13.【superset可视化】电商数据分析案例实战-安装sqoop数据同步工具

* 14.【superset可视化】电商数据分析案例实战-使用sqoop将mysql数据导入到hive中

* 15.【superset可视化】电商数据分析案例实战-hive数据分析-订单支付总额和笔数分析

* 16.【superset可视化】电商数据分析案例实战-hive数据分析-下订单用户总数分析

* 17.【superset可视化】电商数据分析案例实战-hive数据分析-支付方式订单总额及笔数分析

* 18.【superset可视化】电商数据分析案例实战-hive数据分析-订单笔数Top5用户分析

* 19.【superset可视化】电商数据分析案例实战-hive数据分析-商品分类订单总额及笔数分析

* 20.【superset可视化】电商数据分析案例实战-hive分析的结果数据导出到mysql中

* 21.【superset可视化】电商数据分析案例实战-可视化开发-配置superset数据源

* 22.【superset可视化】电商数据分析案例实战-可视化开发-订单销售总额和总数开发

* 23.【superset可视化】电商数据分析案例实战-可视化开发-不同支付方式订单总额及数量的开发

* 24.【superset可视化】电商数据分析案例实战-可视化开发-订单商品分类开发

* 25.【superset可视化】电商数据分析案例实战-可视化开发-订单分析看板开发

* 26.【superset可视化】电商数据分析案例实战-可视化开发-将图表组装到html页面

* 27.【superset可视化】课程总结

* 阶段二中级进修课-智慧学成项目和推荐系统项目/

* 第一章智慧学成-项目介绍环境搭建/

* 项目介绍（智慧学成学习资料在此下载~）/

* 01-项目介绍-学习目标&项目背景和概述

* 02-项目介绍-业务流程

* 03-项目介绍-功能模块

* 04-项目介绍-技术架构

* 环境搭建/

* 05-环境搭建-学习目标&CDH组件介绍

* 06-环境搭建-CDH环境搭建

* 07-环境搭建-配置hosts

* 08-环境搭建-配置Maven

* 09-环境搭建-IDEA环境配置

* 10-环境搭建-导入Scala基础工程&基础工程介绍

* 11-环境搭建-wordcount代码编写及idea代码测试

* 12-环境搭建-wordcount任务提交到集群执行

* 13-Zeppelin简介、Zeppelin调式Spark程序

* 14-Hue简介、Hue操作hive及hdfs

* 第二章智慧学成-数据仓库与ETL/

* 数据仓库/

* 15-数据仓库-学习目标、数据仓库介绍

* 16-数据仓库-数据仓库的特点

* 17-数据仓库-维度分析

* 18-数据仓库-数据仓库建模

* 19-数据仓库-Hive创建数据仓库

* ETL/

* 01-ETL-学习目标

* 02-ETL-ETL介绍

* 课程访问量需求分析/

* 03-ETL-课程访问量需求分析-

* 采集系统/

* 04-ETL-采集系统介绍

* 05-ETL-采集系统搭建

* 06-ETL-采集系统-测试采集课程访问量

* NiFi/

* 07-ETL-NiFi介绍

* 08-ETL-快速入门

* 维度数据采集/

* 09-ETL-维度数据采集-维度介绍-

* 10-ETL-维度数据采集-导入学成在线业务数据

* 11-ETL-维度数据采集-导入NiFi源码&执行采集

* 12-ETL-维度数据采集-注意事项-NiFi采集乱码处理

* 13-ETL-维度数据采集-区域维度原文件上传HDFS&spark读取文件

* 14-ETL-维度数据采集-区域维度原文件数据与实体映射

* 15-ETL-维度数据采集-区域维度字段关联及区域维度数据入库

* 16-ETL-维度数据采集-区域维度-注意事项：winutils配置

* 课程访问量-数据清洗/

* 01-ETL-数据清洗-课程访问量事实表字段介绍&清洗逻辑介绍

* 02-ETL-数据清洗-课程访问量清洗-获取维度数据&原始数据

* 03-ETL-数据清洗-课程访问量清洗-过滤机器人&关联维度

* 04-ETL-数据清洗-课程访问量清洗-去重&保存到数据仓库

* 05-ETL-数据清洗-课程访问量清洗-测试

* 06-ETL-数据清洗-课程访问量清洗-使用NiFi生产数据并测试

* 第三章智慧学成-课程分析/

* 课程访问量-统计分析/

* 07-课程分析-学习目标

* 08-课程分析-课程访问量分析-功能概述&统计分析步骤

* 09-课程分析-课程访问量分析-步骤1：读取课程访问量事实表数据

* 10-课程分析-课程访问量分析-步骤2：课程访问量统计求和

* 11-课程分析-课程访问量分析-步骤3：课程访问量统计结果保存数据仓库

* 12-课程分析-课程访问量分析-使用NiFi将课程访问量分析结果同步到MySQl

* 13-课程分析-课程访问量分析-集成测试概述

* 14-课程分析-课程访问量分析-集成测试-数据清洗统计分析NiFi调度

* 15-课程分析-课程访问量分析-集成测试-联动（清洗、统计分析、同步到业务库）配置并测试

* 业务报表系统搭建/

* 16-业务报表系统搭建-Web前端使用说明&Yapi使用说明

* 17-业务报表系统搭建-使用业务后台接口展示业务报表

* 课程购买量-需求分析/

* 01-课程分析-课程购买量-需求分析

* 课程购买量-数据采集/

* 02-课程分析-课程购买量-采集字段及存储分析

* 03-课程分析-课程购买量-MySQL采集注意事项

* 04-课程分析-课程购买量-NiFi采集MySQL配置

* 05-课程分析-课程购买量-测试NiFi采集MySQL

* 06-课程分析-课程购买量-NiFi生产订单数据保存到MySQL&并进行实时采集

* 课程购买量-数据清洗/

* 07-课程分析-课程购买量-数据清洗-DWD（事实表）结构分析

* 08-课程分析-课程购买量-数据清洗-用户维度采集

* 课程购买量-统计分析/

* 09-课程分析-课程购买量-DWD代码-维度数据获取

* 10-课程分析-课程购买量-DWD代码-事实表数据封装

* 11-课程分析-课程购买量-DWD代码-保存到数据仓库

* 12-课程分析-课程购买量-DWD代码-测试清洗入库

* 13-课程分析-课程购买量-DWM层结构分析

* 14-课程分析-课程购买量-DWM代码-轻度聚合封装数据

* 15-课程分析-课程购买量-DWM代码-保存到数据仓库&测试入库

* 16-课程分析-课程购买量-统计分析

* 17-课程分析-课程购买量-使用NiFi将业务数据从数据仓库同步到MySQL

* 课程购买量-集成测试/

* 18-课程分析-课程购买量-集成测试-概述&NiFi调度数据清洗分析任务

* 19-课程分析-课程购买量-集成测试-联动配置&整流程测试

* 热门学科排名-需求分析/

* 01-热门学科排名-需求分析

* 02-热门学科排名-业务报表系统字段分析

* 热门学科排名-用户选课-数据采集/

* 03-热门学科排名-采集字段及存储分析

* 04-热门学科排名-NiFi采集用户选课数据&测试

* 05-热门学科排名-NiFi生产用户选课数据保存到MySQL&并进行实时采集

* 热门学科排名-用户选课-数据清洗/

* 06-热门学科排名-用户选课DWD层字段说明&清洗分析

* 07-热门学科排名-用户选课-DWD代码-获取维度数据&用户选课原始数据

* 08-热门学科排名-用户选课-DWD代码-事实表数据封装&保存到数据仓库

* 09-热门学科排名-用户选课-DWD代码-测试清洗入库

* 热门学科排名-维度数据采集/

* 10-热门学科排名-统计分析概述&课程分类维度采集

* 热门学科排名-统计分析/

* 11-热门学科排名-统计分析-销售量-周-统计分析步骤

* 12-热门学科排名-统计分析-销售量-周-代码-获取周区间日期

* 13-热门学科排名-统计分析-销售量-周-代码-根据日期获取数据并计算涨幅

* 14-热门学科排名-统计分析-销售量-周-代码-维度关联&保存到数据仓库

* 15-热门学科排名-统计分析-销售量-周-代码-抽取工具类&测试入库

* 16-热门学科排名-统计分析-销售量-月-统计分析步骤及代码编写

* 17-热门学科排名-统计分析-销售量-月-测试入库

* 18-热门学科排名-统计分析-学生人数-周-统计分析步骤

* 19-热门学科排名-统计分析-学生人数-周-代码-获取周区间&获取数据&计算涨幅

* 20-热门学科排名-统计分析-学生人数-周-代码-维度关联&保存到数据仓库

* 21-热门学科排名-统计分析-学生人数-周-代码-抽取工具类&测试入库

* 22-热门学科排名-统计分析-学生人数-月-统计分析步骤&代码编写

* 23-热门学科排名-统计分析-学生人数-月-测试入库

* 24-热门学科排名-统计分析-销售额-周-统计分析步骤&代码编写

* 25-热门学科排名-统计分析-销售额-周-测试入库

* 26-热门学科排名-统计分析-销售额-月-统计分析步骤&代码编写

* 27-热门学科排名-统计分析-销售额-月-测试入库

* 28-热门学科排名-统计分析-使用NiFi将业务数据从数据仓库同步到MySQL

* 热门学科排名-集成测试/

* 29-热门学科排名-集成测试-配置NiFi调度数据清洗分析任务

* 30-热门学科排名-集成测试-测试NiFi调度数据清洗分析

* 31-热门学科排名-集成测试-联动配置&测试

* 32-热门学科排名-集成测试-报表系统Web展示

* 第四章智慧学成-平板看台/

* 实时分析-需求分析/

* 01-实时分析-学习目标

* 02-实时分析-平台看板需求分析&实时分析应用场景

* 03-实时分析-实时分析技术方案

* 04-实时分析-指标与维度分析&数据存储分析

* 实时分析-今日访问量-数据采集/

* 05-实时分析-今日访问量-概述&数据采集

* 实时分析-今日访问量统计分析/

* 06-实时分析-今日访问量-统计分析逻辑

* 07-实时分析-今日访问量-代码-redis获取kafka的offset

* 08-实时分析-今日访问量-代码-SparkStreaming获取kafka中的数据

* 09-实时分析-今日访问量-代码-去重计算实时访问量&保存redis

* 10-实时分析-今日访问量-代码-redis中保存当前offset进度

* 11-实时分析-今日访问量-代码-测试

* 12-实时分析-今日访问量-NiFi生产数据&测试

* 实时分析-新增用户量-数据采集/

* 13-实时分析-新增用户量-概述&数据采集

* 实时分析-新增用户量统计分析/

* 14-实时分析-新增用户量-统计分析逻辑

* 15-实时分析-新增用户量-代码-实时计算新增用户量

* 16-实时分析-新增用户量-代码-测试

* 17-实时分析-新增用户量-NiFi生产数据&测试

* 实时分析-今日购买量数据采集/

* 18-实时分析-今日购买量-概述&数据采集

* 实时分析-今日购买量统计分析/

* 19-实时分析-今日购买量-统计分析逻辑&代码

* 20-实时分析-今日购买量-代码-测试

* 21-实时分析-今日购买量-NiFi生产数据&测试

* 实时分析-集成测试/

* 22-实时分析-集成测试-NiFi调度配置

* 23-实时分析-集成测试-测试&web展示

* 第五章智慧学成-即时查询/

* 即时查询-学习目标/

* 即时查询-学习目标

* 即时查询-需求分析/

* 即时查询-需求分析&技术方案

* 即时查询-技术方案-代码演示-保存-代码

* 即时查询-技术方案-代码演示-保存-测试

* 即时查询-技术方案-代码演示-查询-代码&测试

* 即时查询-采集分析&存储分析

* 即时查询-数据采集/

* 即时查询-数据采集-用户学习采集

* 即时查询-数据采集-课程视频维度采集

* 即时查询-统计分析/

* 即时查询-统计分析-概述&步骤1统计逻辑&中间表介绍

* 即时查询-统计分析-步骤1：代码-获取原始数据

* 即时查询-统计分析-步骤1：代码-注册udf函数

* 即时查询-统计分析-步骤1：代码-关联相关维度&统计学习时长

* 即时查询-统计分析-步骤1：代码-测试

* 即时查询-统计分析-步骤2：概述

* 即时查询-统计分析-步骤2：代码

* 即时查询-统计分析-步骤2：测试

* 即时查询-统计分析-使用hbase注意事项

* 即时查询-统计分析-NiFi生产数据-配置

* 即时查询-统计分析-NiFi生产数据-测试&代码测试

* 即时查询-集成测试/

* 即时查询-集成测试-配置

* 即时查询-集成测试-测试&web展示

* 第六章智慧学成-系统集成测试/

* 系统集成测试-学习目标/

* 系统集成测试-学习目标&概述

* 系统集成测试-代码重新打包/

* 系统集成测试-代码重新打包-代码修改

* 系统集成测试-代码重新打包-上传NiFi容器

* 系统集成测试-NiFi采集-清洗-统计分析/

* 系统集成测试-NiFi采集-清洗-统计分析-概述&清理业务数据

* 系统集成测试-NiFi采集-清洗-统计分析-即时查询

* 系统集成测试-NiFi采集-清洗-统计分析-离线分析-课程访问量

* 系统集成测试-NiFi采集-清洗-统计分析-离线分析-课程购买量

* 系统集成测试-NiFi采集-清洗-统计分析-离线分析-热门学科排名

* 系统集成测试-NiFi采集-清洗-统计分析-实时分析

* 系统集成测试-NiFi采集-清洗-统计分析-web展示

* 第七章智慧学成-项目就业指导/

* 智慧学成-项目就业指导/

* 项目就业指导-就业指导概述&项目功能模块

* 项目就业指导-技术构架&技术栈-1

* 项目就业指导-技术构架&技术栈-2

* 项目就业指导-数据仓库是如何设计的？

* 项目就业指导-数据采集是如何实现的？

* 项目就业指导-ETL是如何做的？

* 项目就业指导-离线分析是如何实现的？

* 项目就业指导-同比分析在项目的应用？

* 项目就业指导-实时分析是如何做的？

* 项目就业指导-如何从海量数据查询想的数据？

* 项目就业指导-项目中任务调度是如何做的？

* 第八章中级进修课-推荐系统项目/

* 业务理解及核心算法/

* 1-黑马电商资讯类推荐-课程安排

* 2-黑马电商资讯类推荐-业务理解

* 3-黑马电商资讯类推荐-技术栈分析

* 4-黑马电商资讯类推荐-项目架构分析

* 5-黑马电商资讯类推荐-技术和业务实现结合

* 6-黑马电商资讯类推荐-什么是推荐系统

* 7-黑马电商资讯类推荐-推荐场景及混合推荐

* 8-黑马电商资讯类推荐-推荐算法简介

* 9-黑马电商资讯类推荐-如何设计推荐系统

* 10-黑马电商资讯类推荐-推荐引擎构建

* 11-黑马电商资讯类推荐-项目开发环境支持

* 12-黑马电商资讯类推荐-项目开发环境支持

* 13-黑马电商资讯类推荐-大数据环境支持

* 14-黑马电商资讯类推荐-ALS算法基础

* 15-黑马电商资讯类推荐-PySprk的ALS参数理解

* 16-黑马电商资讯类推荐-PySpark的ALS实战

* 17-黑马电商资讯类推荐-PySpark的ALS实战

* 18-黑马电商资讯类推荐-ALS优化分析

* 推荐算法及数据导入/

* 1-黑马电商资讯类推荐-召回算法之关联规则

* 2-黑马电商资讯类推荐-召回算法之Apriori算法详解

* 3-黑马电商资讯类推荐-召回算法之Apriori算法举例

* 4-黑马电商资讯类推荐-召回算法之FPGrowth算法详解

* 5-黑马电商资讯类推荐-召回算法之FPGrowth树频繁项挖掘

* 6-黑马电商资讯类推荐-召回算法之FPGrowth算法举例

* 7-黑马电商资讯类推荐-召回算法之SparkMl实战FPGrowth算法

* 8-黑马电商资讯类推荐-排序算法之逻辑回归引入

* 9-黑马电商资讯类推荐-排序算法之逻辑回归详解

* 10-黑马电商资讯类推荐-排序算法之逻辑回归注意事项及实战分析

* 11-黑马电商资讯类推荐-排序算法之逻辑回归实战分类问题及总结

* 12-黑马电商资讯类推荐-数据库迁移需求理解

* 13-黑马电商资讯类推荐-Sqoop迁移MySql数据

* 14-黑马电商资讯类推荐-Sqoop数据导入问题

* 15-黑马电商资讯类推荐-Sqoop数据导入实战

* 16-黑马电商资讯类推荐-Sqoop导入文章数据问题分析

* 17-黑马电商资讯类推荐-定时执行Sqoop脚本详解

* 数据采集及离线计算部分/

* 01-黑马电商资讯类推荐-用户行为数据收集思路

* 02-黑马电商资讯类推荐-埋点参数的设计

* 03-黑马电商资讯类推荐-Flume日志收集实战

* 04-黑马电商资讯类推荐-进程管理工具使用

* 05-黑马电商资讯类推荐-Flume日志收集监控管理实操

* 06-黑马电商资讯类推荐-用户行为数据采集及总结

* 07-黑马电商资讯类推荐-离线业务分析

* 08-黑马电商资讯类推荐-文章画像理解

* 09-黑马电商资讯类推荐-离线模块项目构建

* 10-黑马电商资讯类推荐-jiebe分词理解

* 11-黑马电商资讯类推荐-jiebe分词补充

* 12-黑马电商资讯类推荐-tfidf计算

* 13-黑马电商资讯类推荐-Word2vec计算

* 14-黑马电商资讯类推荐-Word2vec计算补充

* 15-黑马电商资讯类推荐-TextRank计算

* 16-黑马电商资讯类推荐-资讯文章画像TFIDF的计算步骤

* 17-黑马电商资讯类推荐-资讯文章画像的数据Merge操作

* 18-黑马电商资讯类推荐-资讯文章画像数据合并实战

* 19-黑马电商资讯类推荐-资讯文章画像数据sentense字段组合

* 离线资讯文章画像计算部分/

* 01-黑马电商资讯类推荐-资讯类文章TfIdf计算

* 02-黑马电商资讯类推荐-Spark训练CV和IDF模型

* 03-黑马电商资讯类推荐-关键词的计算和处理

* 04-黑马电商资讯类推荐-TextRank计算介绍

* 05-黑马电商资讯类推荐-关键词的计算方法

* 06-黑马电商资讯类推荐-主题词的计算方法

* 07-黑马电商资讯类推荐-离线文章画像更新需求及实践

* 08-黑马电商资讯类推荐-定时更新画像实践

* 09-黑马电商资讯类推荐-ApScheduler使用方式详解

* 10-黑马电商资讯类推荐-资讯类画像ApScheduler的调度

* 11-黑马电商资讯类推荐-supervisor结合ApScheduler完成调度

* 12-黑马电商资讯类推荐-问题重现及解决思路分析

* 13-黑马电商资讯类推荐-word2vec与文章相似度计算

* 14-黑马电商资讯类推荐-SparkMl文章相似度计算

* 15-黑马电商资讯类推荐-SparkMl的Word2Vec模型训练及保存

* 16-黑马电商资讯类推荐-任务执行问题的分析及解决方法

* 17-黑马电商资讯类推荐-增量更新文章画像计算

* 18-黑马电商资讯类推荐-资讯类文章画像处理和结果分析

* 用户画像及召回推荐/

* 1-黑马电商资讯类推荐-文章相似度计算和结果分析

* 2-黑马电商资讯类推荐-LSH的计算方法

* 3-黑马电商资讯类推荐-资讯文章相似度计算实战

* 4-黑马电商资讯类推荐-资讯类文章相似度结果存储Hbase

* 5-黑马电商资讯类推荐-相似度增量更新执行

* 6-黑马电商资讯类推荐-用户画像需求分析

* 7-黑马电商资讯类推荐-用户画像数据需求分析

* 8-黑马电商资讯类推荐-用户画像数据整合实战

* 9--黑马电商资讯类推荐-时间衰减因子分析及思路

* 10-黑马电商资讯类推荐-关键词及权重计算方法

* 11-黑马电商资讯类推荐-用户画像权重计算机存储

* 12-黑马电商资讯类推荐-用户基本信息画像简介

* 13-黑马电商资讯类推荐-画像更新计算

* 14-黑马电商资讯类推荐-apScheduler调度执行及总结

* 15-黑马电商资讯类推荐-离线召回与排序需求分析

* 16-黑马电商资讯类推荐-召回阶段需求分析及表设计

* 17-黑马电商资讯类推荐-als召回推荐项目实战

* 18-黑马电商资讯类推荐-als召回算法结果处理

* 19-黑马电商资讯类推荐-als召回结果存储

* 20-黑马电商资讯类推荐-fpgrowth召回算法项目实战

* 实时业务计算分析/

* 01-黑马电商资讯类推荐-实时计算业务梳理-

* 02-黑马电商资讯类推荐-GRPC简介

* 03-黑马电商资讯类推荐-GRPC原理详解

* 04-黑马电商资讯类推荐-推荐系统GRPC接口定义

* 05-黑马电商资讯类推荐-推荐系统GRPC服务端代码编写

* 06-黑马电商资讯类推荐-代码测试

* 07-黑马电商资讯类推荐-ABTest简介

* 08-黑马电商资讯类推荐-推荐系统ABTest试验参数设置配置

* 09-黑马电商资讯类推荐-ABTest实现用户分流

* 10-黑马电商资讯类推荐-推荐中心定义及逻辑梳理

* 11-黑马电商资讯类推荐-推荐系统Hbase关键表设计

* 12-黑马电商资讯类推荐-推荐系统推荐中心代码编写

* 13-黑马电商资讯类推荐-推荐中心推荐中心代码编写

* 14-黑马电商资讯类推荐-推荐中心流程测试

* 15-黑马电商资讯类推荐-问题梳理及关键点总结

* 16-黑马电商资讯类推荐-多路召回结果读取

* 17-黑马电商资讯类推荐-新资讯文章召回读取

* 18-黑马电商资讯类推荐-热门文章召回读取

* 19-黑马电商资讯类推荐-召回结果和推荐中心整合

* 20-黑马电商资讯类推荐-召回结果过滤思路梳理及代码编写

* 21-黑马电商资讯类推荐-召回结果过滤代码编写

* 22-黑马电商资讯类推荐-召回结果待推荐代码编写

* 23-黑马电商资讯类推荐-召回和推荐中心整合测试

* 24-黑马电商资讯类推荐-推荐中心加入缓存逻辑梳理

* 25-黑马电商资讯类推荐-缓存代码编写1

* 26-黑马电商资讯类推荐-缓存代码编写2

* 27-黑马电商资讯类推荐-推荐中心和缓存整合

* Ctr点击率预估排序/

* 01-黑马电商资讯类推荐-基于内容召回原理与实战

* 02-黑马电商资讯类推荐-基于内容召回测试及更新

* 03-黑马电商资讯类推荐-实时计算方法思路简介

* 04-黑马电商资讯类推荐-Flume+Kafka整合

* 05-黑马电商资讯类推荐-实时召回业务

* 06-黑马电商资讯类推荐-实时online推荐实战

* 07-黑马电商资讯类推荐-实时推荐测试

* 08-黑马电商资讯类推荐-热门文章召回

* 09-黑马电商资讯类推荐-新文章召回

* 10-黑马电商资讯类推荐-Spark性能调优

* 11-黑马电商资讯类推荐-离线排序模型构建思路

* 12-黑马电商资讯类推荐-SparkLR预估实战

* 13-黑马电商资讯类推荐-Ctr预估实战数据处理

* 14-黑马电商资讯类推荐-Ctr预估实战数据处理

* 15-黑马电商资讯类推荐-特征工程

* 16-黑马电商资讯类推荐-模型训练及数据处理

* 17-黑马电商资讯类推荐-模型分类效果评估

* 18-黑马电商资讯类推荐-离线Ctr用户特征中心更新实战

* 19-黑马电商资讯类推荐-离线Ctr文章特征中心更新实战

* 20-黑马电商资讯类推荐-特征存储及更新

* 21-黑马电商资讯类推荐-排序模型在线预测

* 22-黑马电商资讯类推荐-排序模型代码实战

* 23-黑马电商资讯类推荐-排序模型业务实战

* 24-黑马电商资讯类推荐-实时排序模型预测

* 25-黑马电商资讯类推荐-排序模型测试

* 26-黑马电商资讯类推荐-实时排序调度执行

* 简历指导/

* 01-简历指导

* 02-技能点撰写

* 03-项目架构及面试题部分

* 阶段三中级进修课-SparkMllib及用户画像项目/

* 第一章 SparkMllib&GRAPH/

* Spark机器学习基础/

* 01-机器学习和大数据的区别(一)

* 02-机器学习和大数据的区别和联系(二)

* 03-机器学习和大数据的区别和联系(三)

* 04-人工智能和机器学习的区别

* 05-数据分析和数据挖掘联系

* 06-什么是机器学习问题

* 07-基于规则的学习和基于模型的学习方式

* 08-机器学习数据集概述1

* 09-机器学习数据集概述2

* 10-机器学习数据集概述3

* 11-机器学习问题分类

* 12-机器学习三要素强化

* 13-构建机器学习模型的流程

* 14-模型选择

* 15-交叉验证及经验和结构风险

* SparkMllib库特征工程基础与实战(一)/

* 01-SparkMllib的功能

* 2-SparkMllib的版本

* 3-SparkMllib架构

* 4-环境搭建及RDD、DF、DS的转换实践

* 5-如何利用SparkMllib构建机器学习推荐架构

* 6.SparkMllib算法分类及应用场景

* 7-SparkMllib基础数据类型-localvector

* 8-SparkMllib基础数据类型-labelpoint

* 9.SparkMllib基础数据类型-libsvm数据读取

* 10.SparkMllib基础数据类型-localmatrix

* 11.SparkMllib基础数据类型-分布式行矩阵和行索引矩阵

* 12.SparkMllib基础数据类型-分块矩阵

* 13.SparkMllib均值和方差

* 14-SparkMllib相关系数

* 15-SparkMllib假设检验的卡方验证

* 16-SparkMllib假设检验和随机数的产生

* 17-特征提取tf-ifd

* 18-特征提取-word2vec实践

* 19-特征提取CountVector

* SparkMllib库特征工程基础与实战(二)/

* 20-特征转化的二值化操作

* 21-特征转换-PCA操作

* 22-特征转换-类别型数据和数值型数据转换

* 23-特征转换-OneHot编码方式

* 24-特征转换-VectorIndexer转换操作

* 25-正则项

* 26-数值型数据处理的方法

* 27-Bucketizer分箱

* 28-ElementWise与SQLTransform实践

* 29-特征转换VectorAssemble

* 30-特征转换-QuantileDiscretizer

* 31-特征选择VectorSlicer

* 32-RFormula和卡方验证选择特征方法

* 33-卡方验证案例补充

* 36-案例实践2-Iris统计初步实践

* 37-案例实践2-Iris的rdd相关系数实践

* 38-案例实践2-iris的Dataframe数据统计

* 39-案例实践2-iris的SParkMllib特征工程实践

* SparkMllib决策树算法基础与实战/

* 1-了解什么是决策树

* 2.基于规则建树

* 3-信息熵的理解

* 4-ID3算法步骤详解

* 5-ID3算法举例和C4.5算法改进

* 6-决策树的剪枝方式

* 7-电商购买数据集ID3算法对比实践

* 8-Cart树的回归树原理理解

* 9-Cart树算法案例讲解

* 10-Cart分类树原理及Gini系数

* 11-Cart分类树的案例

* 12-SparkMllib实战libsvm数据建模

* 13-SparkMl实战libsvm数据全流程讲解实战

* 14-SparkMllib相亲数据建模分析

* 15-SparkMllib实战iris鸢尾花实战

* 16-SparkMl实战Iris特征工程及建模实战1

* SparkMllib高级模块与线性回归基础及实战/

* 1-SparkMllib的pipeline简介

* 2-Dataframe组件

* 3-Pipeline原理

* 4-通过set方法和ParamMap方法赋值超参数的选项

* 5-通过pipeline完成案例的代码编写

* 6-如何对模型选择与优化

* 7-超参数的网格搜索

* 8-简单交叉验证及模型选择

* 9-简单线性回归

* 10-最小二乘法解决简单线性回归原理

* 11-多元线性回归简介

* 12-最小二乘推导补充(补充)

* 13-线性回归的变体及各适用场景

* 14-SparkMl实战脂肪数据集的案例

* 15-SparkMl实战运输时间的预测分析

* 16-SparkMl实战libsvm数据的形式

* 16-SparkMllib基于RDD结构实战线性回归实例

* 17-Sparkml完成房价预测分析实战

* SparkMllib聚类算法基础与实战/

* 1-什么是聚类

* 2-关于多种距离的度量简介

* 3-聚类算法核心思想

* 4-KMeans的举例

* 5-Kmens算法性能指标分析

* 6-KMeans特点及注意事项

* 7-SparkMLIB实战KMEans算法

* 8-SparkMLLIB实现药品数据得简单聚类

* 9-SparkMl实现基本数据的聚类分析实战

* 10-SparkMl和parkSql实现经纬度数据聚类分析实战

* 11-k-medoids了解

* 12-其他聚类思路-层次聚类方法

* 13-基于密度的聚类DBSCAN

* 14-GMM模型原理

* 15-聚类算法的总结：

* 16-SparkMllib实现对于层次聚类的分析

* 17-SparkMllib完成对于GMM高斯混合模型实践分析

* 18-SparkLDA实现了主题的提取实战

* 19-SparkML实现IRis鸢尾花的聚类算法实战

* SparkGraphX理论基础与实战/

* 1-图基本概念以及图计算应用

* 2-SparkGraphX简介

* 3-SparkGraphX图算法

* 4-SparkGraphX抽象是RDPG---弹性分布式属性图

* 5-SparkGraphX架构层面及存储方式简介

* 6-SparkGraphX定义顶点操作

* 7-SparkGraphX构件图及查询的操作

* 8-图的基本数据结构

* 9-图的类型和图的存储方式简介

* 10-构建图的方法原理及源码了解创建过程

* 11-构建图的操作代码

* 12-社交网络数据的创建部分代码实战

* 13-图的基本信息--顶点、边、入度、出度

* 14-图的转换操作：mapVertices、mapEdges、mapTriplet

* 15-图的结构操作：reverse、subgraph、mask、groupGraph

* 16-图的关联操作

* 17-图的聚合以及图的操作API总结

* SparkGraphX与SparkMllib综合实战/

* 1-PageRank算法的基本假设和理解

* 2-PageRank算法思想

* 3-PageRank算法深入

* 4-SparkGraphX通过社交网络数据完成重要节点的选择

* 5-通过wiki数据达到网页重要性的pagerank度量

* 6-通过PageRank算法得到网页排名的重要性

* 7-广度优先遍历

* 8-SparkGrphX实现最短路径

* 9-连通图和强联通图

* 10-SparkGraphx实战三角关系网络发现

* 11-SVD++原理

* 12-SVD++实战推荐算法预测

* SparkGraphX基础实战/

* 001-了解最短路径算法

* 002-SparkGraphX实战-1

* 003-SparkGraphX实战-2

* 004-SparkGraphX社交网络案例实践

* 第二章用户画像项目-项目介绍/

* 项目介绍/

* 001-项目介绍-课程体系

* 002-项目介绍-什么是用户画像-应用场景-精细化运营

* 003-项目介绍-什么是用户画像-应用场景-推荐系统

* 004-项目介绍-什么是用户画像-概念

* 计算框架选型/

* 005-项目介绍-计算框架选型-离线数仓

* 006-项目介绍-计算框架选型-实时数仓

* 007-项目介绍-计算框架选型-离线画像

* 008-项目介绍-计算框架选型-实时画像

* 项目结构/

* 009-项目介绍-项目结构-项目功能

* 010-项目介绍-项目结构-项目架构

* 011-项目介绍-项目结构-项目情况

* 第三章用户画像项目-集群搭建/

* 集群介绍/

* 012_集群搭建_设计集群_资源预估

* 013_集群搭建_设计集群_完成

* 014_集群搭建_部署和管理集群的工具_介绍

* 015_集群搭建_部署和管理集群的工具_三种部署方式

* 自动化部署/

* 016_集群搭建_自动创建虚拟机_介绍Vagrant

* 017_集群搭建_自动创建虚拟机_初体验

* 018_集群搭建_自动创建虚拟机_Provision

* 019_集群搭建_自动创建虚拟机_创建集群

* 020_集群搭建_自动化部署_Ansible介绍

* 021_集群搭建_自动化部署_脚本结构

* 022_集群搭建_自动化部署_部署完成

* 第四章用户画像项目-数据抽取/

* 数据抽取介绍/

* 023_数据抽取_BulkLoad介绍

* 024_数据抽取_ToHive

* 025_数据抽取_ToHBase_工程创建

* 026_数据抽取_ToHBase_思路梳理

* 数据抽取实现/

* 027_数据抽取_ToHBase_SaveAsHFile

* 028_数据抽取_ToHBase_BulkLoad

* 029_数据抽取_ToHBase_任务执行

* 第五章用户画像项目-调度平台介绍/

* 调度平台/

* 030_调度平台_项目结构

* 031_调度平台_Oozie介绍

* 032_调度平台_Oozie组件

* 033_调度平台_访问流程

* 034_调度平台_调用Oozie的流程

* 第六章用户画像项目-匹配型标签/

* SHC 介绍/

* 035_匹配型标签_SHC读取

* 036_匹配型标签_SHC写入

* 037_匹配型标签_SHC使用JSON的Catalog

* 性别标签/

* 038_匹配型标签_性别标签_标签处理流程

* 039_匹配型标签_性别标签_读取四级标签数据

* 040_匹配型标签_性别标签_标签转对象和读取五级标签

* 041_匹配型标签_性别标签_读取元数据

* 042_匹配型标签_性别标签_元数据分类

* 043_匹配型标签_性别标签_源数据读取

* 044_匹配型标签_性别标签_标签匹配

* 045_匹配型标签_性别标签_存入画像表

* 046_匹配型标签_优化点_SHC工具类

* 职业标签/

* 047_匹配型标签_职业标签_上线流程

* 048_匹配型标签_职业标签_读取标签

* 049_匹配型标签_职业标签_读取数据源

* 050_匹配型标签_职业标签_计算保存

* 其它标签/

* 051_匹配型标签_基类抽取_完成

* 052_匹配型标签_国籍标签

* 053_匹配型标签_政治面貌

* 054_匹配型标签_调度执行

* 第七章用户画像项目-存储选型/

* MySQL/

* 055-项目介绍-存储选型-访问特点

* 056-项目介绍-存储选型-MySQL-查找二叉树

* 057-项目介绍-存储选型-MySQL-B树

* 058-项目介绍-存储选型-MySQL-B树-插入

* 059-项目介绍-存储选型-MySQL-B+树-问题1(950剪辑)

* 060-项目介绍-存储选型-MySQL-B+树-问题2

* 061-项目介绍-存储选型-MySQL-总结

* Hbase/

* 062-项目介绍-存储选型-HBase-LSM

* 063-项目介绍-存储选型-HBase-特点-回顾

* 064-项目介绍-存储选型-HBase-特点-优化1

* 065-项目介绍-存储选型-HBase-特点-优化2

* 066-项目介绍-存储选型-HBase-总结

* 067-项目介绍-存储选型-总结

* 第八章用户画像项目-统计型标签/

* 统计型标签/

* 068_统计型标签_年龄段

* 069_统计型标签_支付方式_统计数量

* 070_统计型标签_支付方式_分组的迷思

* 071_统计型标签_支付方式_完成

* 072_统计型标签_支付方式_最近

* 073_统计型标签_消费周期

* 第九章用户画像项目-机器学习入门/

* 机器学习介绍/

* 074_机器学习入门_什么是学习型算法

* 075_机器学习入门_概念

* Zeppelin/

* 076_机器学习入门_Zeppelin_安装

* 077_机器学习入门_Zeppelin_介绍

* 078_机器学习入门_Zeppelin_基础使用

* 房价案例/

* 079_机器学习入门_房价预测_绘制价格直方图

* 080_机器学习入门_房价预测_绘制特征关系

* 081_机器学习入门_房价预测_算法选择

* 082_机器学习入门_房价预测_空值处理

* 083_机器学习入门_房价预测_顺序特征编码

* 084_机器学习入门_房价预测_组合特征

* 085_机器学习入门_房价预测_特征编码_查看特征

* 086_机器学习入门_房价预测_特征编码_Indexer

* 087_机器学习入门_房价预测_OneHot

* 088_机器学习入门_房价预测_生成特征列

* 089_机器学习入门_房价预测_模型建立

* 第十章用户画像项目-挖掘型标签/

* RFM/

* 090_挖掘型标签_用户价值模型_需求

* 091_挖掘型标签_用户价值模型_RFM

* 092_挖掘型标签_用户价值模型_实现步骤

* 093_挖掘型标签_用户价值模型_求得RFM

* 094_挖掘型标签_用户价值模型_打分

* 095_挖掘型标签_用户价值模型_训练

* 095_挖掘型标签_用户价值模型_预测

* 096_挖掘型标签_用户价值模型_生成标签

* 097_挖掘型标签_用户活跃度模型

* PSM/

* 098_挖掘型标签_价格敏感度_PSM求值思路

* 099_挖掘型标签_价格敏感度_PSM打分

* 100_挖掘型标签_价格敏感度_肘部法则

* 购物性别/

* 101_挖掘型标签_购物性别_决策树

* 102_挖掘型标签_购物性别_创建多源基类

* 103_挖掘型标签_购物性别_数据处理

* 104_挖掘型标签_购物性别_训练预测

* 105_挖掘型标签_购物性别_完结

* 阶段四中级进修课-千亿级电商数仓项目-离线部分/

* 第一章千亿级电商数仓项目-离线部分-数仓概述及kettle框架学习/

* 项目概述/

* 01-课程目标

* 02-电商行业与电商系统介绍

* 03-数仓项目整体技术架构介绍

* 04-数仓项目架构-kylin补充

* 05-数仓具体技术介绍与项目环境介绍

* kettle安装及使用/

* 06-kettle的介绍与安装

* 07-kettle的入门案例

* 08-kettle输入组件之json输入与表输入

* 09-kettle输入组件之生成记录组件

* 10-kettle输出组件之文本文件输出

* 11-kettle输出组件之表输出插入更新删除组件

* kettle整合大数据框架/

* 12-kettle整合hadoop

* 13-kettle-hadoopfileinput组件

* 14-kettle-hadoopfileoutput组件

* 15-kettle整合hive

* 16-kettle-hive表输入组件

* 17-kettle-hive表输出组件

* 18-kettle执行hivesql组件

* kettle转换组件/

* 19-kettle转换组件之值映射增加序列字段选择

* kettle流程控件/

* 20-kettle流程控件-switchcase组件

* 21-kettle流程控件-过滤记录组件

* kettle连接组件/

* 22-kettle连接组件

* kettle作业及linux部署/

* 23-kettle的作业介绍

* 24-kettle-转换命名参数

* 25-linux部署kettle

* 26-pansh执行转换任务

* 27-kitchensh执行转换任务

* 第二章千亿级电商数仓项目-离线部分-数仓分层设计及业务数据采集/

* 数仓理论/

* 01-课程目标与课程内容介绍

* 02-数仓维度建模设计

* 03-数仓为什么分层

* 04-数仓分层思想和作用

* 05-数仓中表的分类和同步策略

* 06-数仓中表字段介绍以及表关系梳理

* 项目环境初始化/

* 07-项目环境初始化

* 缓慢变化维/

* 08-缓慢变化维问题以及常见解决方案

* 09-商品案例-每日全量采集方案

* 10-每日全量案例实现

* 拉链表技术/

* 11-拉链表技术介绍

* 12-拉链表技术实现-第一次导入数据到拉链表

* 13-拉链表技术实现--历史数据更新

* 14-拉链表技术实现-新增数据插入以及合并

* 数据采集/

* 15-商品维度数据第一次全量导入拉链表

* 16-商品维度数据第二次增量导入

* 17-周期性事实表同步操作

* 18-其余表增量抽取

* 第三章千亿级数仓-离线部分-订单业务指标实现/

* 订单时间维度指标实现/

* 01-今日课程内容和课程目标

* 02-订单时间维度指标需求分析

* 03-使用kettle生成日期维度数据

* 04-订单指标时间维度分析--每个季度

* 05-订单指标时间维度-每个月-每个周-休息日节假日工作日

* 订单指标区域维度商品分类维度实现/

* 06-订单指标区域维度和分类维度需求分析

* 07-店铺区域维度数据拉宽

* 08-商品分类表维度数据拉宽

* 09-事实表维度数据拉宽操作

* 10-全国无商品分类维度指标统计

* 11-全国一级商品分类维度指标开发

* 12-大区二级商品分类维度指标统计

* 用户订单行为指标/

* 13-用户订单行为指标需求分析

* 14-ETL处理-订单时间标志宽表处理

* 15-用户订单行为指标开发一

* 16-指标开发第二部分

* 17-指标开发第四部分

* 18-创建ads层指标表存储数据

* 第四章千亿级电商数仓项目-离线部分-日志数据采集及ETL处理/

* 数据采集-flume0/

* 01-今日课程目标与课程内容介绍

* 02-网站流量日志获取方式介绍

* 03-埋点js自定义采集原理分析

* 04-网站流量日志-flume采集

* 05-flume采集核心配置介绍

* 06-flume采集程序启动验证

* 07-flume采集输出hdfs目录分析

* 08-flume自定义拦截器代码编写- (1)

* 08-flume自定义拦截器代码编写- (2)

* ETL处理-点击流模型/

* 10-ETL处理pageview-visit模型介绍及实现思路

* 11-ETL处理-创建hive表接收ETL处理后数据

* 12-ETL处理代码-普通版本-数据清洗过滤实现

* 13-ETL处理代码-普通版本-pageview模型实现

* 14-ETL处理代码-visit模型以及程序运行验证

* 15-ETL处理代码-数据倾斜解决思路

* 16-ETL处理代码-数据倾斜版本-rangepartitioner均匀分区实现

* 17-ETL处理代码-数据倾斜版本-第一次生成sessionid

* 18-ETL处理代码-数据倾斜版本-使用累加器修复分区边界

* 19-ETL处理代码-数据倾斜版本-边界修复验证

* 20-ETL处理代码-数据倾斜版本-最终实现以及验证

* 第五章千亿级电商数仓项目-离线部分-流量指标开发/

* 流量指标开发/

* 01-今日课程目标与课程内容介绍

* 02-生成明细表数据

* 03-流量分析常见指标-基础级-复合级指标

* 04-常见流量分析模型

* 05-基础级指标统计

* 06-基础级指标多维统计分析

* 07-复合指标统计

* 08-分组topn问题-开窗函数

* 09-受访分析

* 10-访客分析

* 11-访客visit分析

* 12-数据导出

* 工作流调度/

* 13-工作流调度和实现方式

* 14-数据导出脚本编写-第一部分

* 15-数据导出脚本编写-第二部分

* 16-增量抽取数据脚本编写

* 17-flume启动停止脚本与数据预处理脚本

* 18-ETL以及指标计算脚本编写

* 19-azkaban定时调度job编写

* 第六章千亿级电商数仓项目-离线部分-Apache kylin/

* kylin介绍与入门/

* 01今日课程目标与课程内容介绍

* 02-kylin简介以及应用场景

* 03-kylin的优势以及数据流程图

* 04-kylin的安装

* 05-kylin入门案例

* 06-kylin入门案例结果验证

* 07-kylin入门案例-多张表

* 08-kylin入门案例-一张事实表多张维度表

* kylin工作原理/

* 09-kylin维度和度量以及cube与cuboid

* 10-kylin工作原理-技术架构

* kylin增量构建与碎片管理/

* 11-kylin全量构建与增量构建介绍

* 12-增量构建model准备

* 13-kylin中cube增量构建演示

* 14-kylin增量构建restapi方式

* 15-kylin碎片管理-手动合并

* 16-kylin碎片管理-手动删除segment

* 17-kylin碎片管理自动合并策略及案例

* 18-kylin自动保留策略以及案例

* 19-jdbc方式查询kylin

* 第七章千亿级电商数仓项目-离线部分-Apache superset/

* kylin优化/

* 01-kylincube优化-确定cuboid数量与cubesize

* 02-cube优化-衍生维度

* 03-cube优化-聚合组

* 04-cube调优案例

* 数仓指标-kylin实现/

* 05-kylin接入数仓开发

* Apache superset/

* 06-apache superset简介

* 07-superset的安装

* 08-superset入门案例

* 09-superset菜单功能介绍

* 10-superset订单案例实战

* 11-superset dashboard实战

* 12-superset的权限控制

* 13-superset业务开发

* 阶段五中级进修课-千亿级电商数仓项目-实时部分/

* 第一章千亿级电商数仓项目-实时部分-项目介绍及环境搭建/

* 实时计算应用场景及技术选型/

* 01.【实时数仓-day01】课程目标

* 02.【实时数仓-day01】实时计算应用场景和技术选型

* 03.【实时数仓-day01】项目实施环境

* 项目背景及架构/

* 04.【实时数仓-day01】需求分析介绍

* 05.【实时数仓-day01】常见的软件工程模型

* 06.【实时数仓-day01】实施方案

* 07.【实时数仓-day01】实时数仓的整体架构

* canal的介绍及安装部署/

* 08.【实时数仓-day01】canal的介绍

* 09.【实时数仓-day01】canal的安装部署

* 10.【实时数仓-day01】canal的客户端代码编写

* 11.【实时数仓-day01】canal的客户端测试

* protobuf介绍及使用/

* 12.【实时数仓-day01】potobuf数据格式化的引入

* 13.【实时数仓-day01】protobuf的介绍及环境初始化

* 14.【实时数仓-day01】protobuf的使用

* 15.【实时数仓-day01】protobuf整合canalClient

* canal架构及原理/

* 16.【实时数仓-day01】mysql的主备原理

* 17.【实时数仓-day01】canal的工作原理及架构

* 18.【实数数仓-day01】canal的工作原理-客户端和服务端交互协议以及组件介绍

* 19.【实时数仓-day01】canal的工作原理EventStore

* 20.【实时数仓-day01】canal的工作原理Eventparser

* 第二章千亿级电商数仓项目-实时部分-canal客户端开发/

* canal的高可用部署/

* 01.【实时数仓-day02】课程目标

* 02.【实时数仓-day02】canal服务端的ha设置及演示

* 03.【实时数仓-day02】canal客户端的ha配置

* canal客户端模块开发/

* 04.【实时数仓-day02】项目开发-环境初始化

* 05.【实时数仓-day02】项目开发-canal客户端-环境初始化

* 06.【实时数仓-day02】项目开发-canal客户端-核心代码编写

* 07.【实时数仓-day02】项目开发-canal客户端-自定义序列化

* 08.【实时数仓-day02】项目开发-canal客户端-binlog的protobuf序列化实现

* 09.【实时数仓-day02】项目开发-canal客户端-将binlog日志使用protobuf序列化后写入kafka集群

* 实时ETL模块开发环境初始化/

* 10.【实时数仓-day02】项目开发-实时ETL-环境初始化

* 11.【实时数仓-day02】项目开发-实时ETL-Flink流式计算程序的初始化

* 12.【实时数仓-day02】项目开发-实时ETL-根据数据来源封装ETL基类

* 第三章千亿级电商数仓项目-实时部分-维度数据处理及logpasing框架使用/

* 实时ETL模块维度数据处理/

* 01.【实时数仓-day03】课程目标

* 02.【实时数仓-day03】实时ETL-Flink程序解析Kafka中的ProtoBuf

* 03.【实时数仓-day03】实时ETL-维度数据的样例类定义

* 04.【实时数仓-day03】实时ETL-维度数据的全量装载

* 05.【实时数仓-day03】实时ETL-维度数据的增量更新

* 实时ETL模块-logparsing框架使用/

* 06.【实时数仓-day03】实时ETL-点击流日志ETL引入logparsing框架介绍

* 07.【实时数仓-day03】实时ETL-点击流日志ETLlogparsing官方案例介绍

* 08.【实时数仓-day03】实时ETL-点击流日志ETLlogparsing入门案例

* 09.【实时数仓-day03】实时ETL-点击流日志ETLlogparsing框架应用到点击流日志样例类中

* 第四章千亿级电商数仓项目-实时部分-点击流及订单业务数据开发/

* 实时ETL模块-点击流数据开发/

* 01.【实时数仓-day04】课程目标

* 02.【实时数仓-day04】实时ETL-点击流ETL-定义拉宽后的点击流对象样例类

* 03.【实时数仓-day04】实时ETL-点击流ETL-实时拉宽实现方案

* 04.【实时数仓-day04】实时ETL-点击流ETL-点击流日志转换成对象

* 05.【实时数仓-day04】实时ETL-点击流ETL-将点击流对象转换成拉宽后的点击流对象

* 06.【实时数仓-day04】实时ETL-点击流ETL-将拉宽后的点击流对象写入到kafka集群

* 07.【实时数仓-day04】实时ETL-点击流ETL-阶段总结

* 实时ETL模块-订单明细数据开发/

* 08.【实时数仓-day04】实时ETL-订单明细ETL-订单明细实时ETL需求分析

* 08.【实时数仓-day04】实时ETL-订单ETL-订单实时ETL业务开发

* 09.【实时数仓-day04】实时ETL-订单明细ETL-订单明细样例类定义

* 10.【实时数仓-day04】实时ETL-订单明细ETL-订单明细异步请求关联维度表数据

* 11.【实时数仓-day04】实时ETL-订单明细ETL-异步IO的原理

* 12.【实时数仓-day04】实时ETL-订单明细ETL-将订单明细数据写入到kafka集群

* 13.【实时数仓-day04】实时ETL-订单明细ETL-订单明细实时ETL到hbase并测试

* 14.【实时数仓-day04】实时ETL-商品数据ETL-商品表数据实时拉宽写入到kafka集群

* 实时ETL模块-商品购物车评论数据开发/

* 15.【实时数仓-day04】实时ETL-购物车数据ETL-购物车数据实时拉宽写入到kafka集群

* 16.【实时数仓-day04】实时ETL-评论数据ETL-评论数据实时拉宽写入到kafka集群

* 17.【实时数仓-day04】实时ETL-导入数据模拟生成器

* 第五章千亿级电商数仓项目-实时部分-Phoenix及Druid部署/

* Phoenix的安装部署及使用/

* 01.【实时数仓-day05】课程目标

* 02.【实时数仓-day05】Phoenix的介绍

* 03.【实时数仓-day05】Phoenix的安装部署

* 04.【实时数仓-day05】Phoenix的入门案例

* 05.【实时数仓-day05】Phoenix创建与Hbase的映射

* 06.【实时数仓-day05】使用Phoenix构建二级索引加快查询效率

* 07.【实时数仓-day05】Phoenix-使用订单明细创建Phoenix映射表并jdbc连接Phoenix

* Flink的程序优化/

* 08.【实时数仓-day05】Flink的程序优化

* Druid安装部署及使用/

* 09.【实时数仓-day05】Druid的介绍

* 10.【实时数仓-day05】Druid的安装和部署

* 11.【实时数仓-day05】Druid-Druid的入门案例

* 12.【实时数仓-day05】Druid-Druid的摄取本地文件案例

* 13.【实时数仓-day05】Druid-Druid的摄取HDFS文件案例

* 14.【实时数仓-day05】Druid-Druid的摄取Kafka流式数据案例

* 15.【实时数仓-day05】Druid-Druid的摄取配置文件格式说明

* 16.【实时数仓-day05】Druid-Druid的数据查询

* 第六章千亿级电商数仓项目-实时部分-Druid进行OLAP分析及superset可视化/

* 使用Druid进行OLAP分析/

* 01.【实时数仓-day06】课程目标

* 02.【实时数仓-day06】Druid-jdbc操作Druid

* 03.【实时数仓-day06】Druid-点击流日志指标分析

* 04.【实时数仓-day06】Druid-订单数指标分析

* 数仓可视化模块介绍/

* 05.【实时数仓-day06】导入数据可视化项目模块

* Druid的架构及原理/

* 06.【实时数仓-day06】Druid的架构和原理-索引服务介绍

* 07.【实时数仓-day06】Druid的架构和原理-存储服务和查询服务节点介绍

* 08.【实时数仓-day06】Druid的架构和原理-Druid数据存储

* Superset安装部署及使用/

* 09.【实时数仓-day06】superset的介绍

* 10.【实时数仓-day06】superset的安装部署

* 11.【实时数仓-day06】superset的入门案例

* 12.【实时数仓-day06】Mysql订单分析案例

* 13.【实时数仓-day06】superset的权限介绍

* 14.【实时数仓-day06】superset的自定义角色

本篇 ¥29.00 · 开通 VIP 更划算

查看价格与购买

相关推荐

小滴课堂新一代AI全栈工程师-微服务AI智能面试对话平台

¥79.00 · 2716 浏览

AI+全能测试工程师

¥95.00 · 3422 浏览

小滴课堂中间件项目大课-自动化云测平台/Spingboot3.X/微服务/Kafka3.x

¥67.00 · 754 浏览

代码源信奥C++

¥19.90 · 2761 浏览

华清远见线上课程（创客学院）嵌入式+物联网

¥20.00 · 2725 浏览

小龙虾OpenClaw+Gemini+GPT+deepseek+Claude+AI绘画PPT数据分析

¥57.00 · 1673 浏览

大数据中级进修课

体系课

27 人浏览发布 2026-06-09更新 2026-07-10

* 阶段一中级进修课-技术点/

* 第一章 Hadoop集群配置Kerberos安全认证机制/

* Kerberos简介/

* 01-Kerberos简介

* 环境准备/

* 02-环境搭建-01-配置网络和主机名

* 02-环境搭建-02-配置ntp设置用户以及上传软件包

* Kerberos搭建/

* 03-01-KerberosServer配置

* 03-02-Kerberos客户端配置

* 03-03-规划为Hadoop中各个服务分配Kerberos的principal

* 配置HDFS/

* 04-01-配置HDFS-创建Kerberos对应的账户设置Keytab文件

* 04-02-配置HDFS-编译executor-container

* 04-03-配置HDFS-配置lib-native本地运行库

* 04-04-配置HDFS-配置core-site-hdfs-size以及env.sh等配置文件

* 04-05-配置HDFS-配置https证书以及ssl配置文件

* 04-06-配置HDFS-启动HDFS测试

* 配置YARN/

* 05-配置YARN并启动测试

* 配置HIVE/

* 06-配置和启动测试HIVE

* 使用代码集成测试/

* 07-使用Java代码集成测试

* 第二章 HDP 集群环境安装配置/

* 环境检查/

* 01-前言

* 安装前的环境配置/

* 02-环境配置-01

* 02-环境配置-02

* 02-环境配置-03

* 部署HDP相关软件包的yum仓库/

* 03-Ambari-HDP需要的软件包配置到yum本地库中

* 安装AmbariServer/

* 04-安装Ambari-Server

* 在Ambari Server UI中进行基础安装配置/

* 05-通过Ambari-Server-UI部署集群

* 测试以及安装其他服务/

* 06-01-添加hadoop组件并测试

* 06-02-添加HBase并测试

* 06-03-添加Yarn和MR并测试

* 06-04-添加Kafka并测试

* 06-05-添加Spark并测试

* 第三章 CDH 集群环境安装配置/

* 准备/

* 1.大数据架构和技术选型

* 2.基础环境准备-1

* 3.基础环境准备-2

* Cloudera Manager/

* 4.CM的产生背景和应用场景

* 5.CM介绍

* 6.集群服务规划

* 7.CM基础环境准备

* 8.CM基础环境准备-扩展资源

* 9.CM基础环境准备-3

* 10.CM基础环境准备-4

* 11.CM安装Server和Agent

* 12.CM安装Service服务

* CDH组件安装/

* 13.CM安装HDFS服务

* 14.CM添加Yarn服务

* 15.CM添加Zookeeper服务

* 16.CM添加Hive服务

* 17.CM添加oozie服务

* 18.CM添加Sqoop服务

* 19.CM添加HBase服务

* 20.CM添加Spark服务

* 21.CM添加Hue服务

* 22.CM添加新服务器

* 第四章 kettle入门教程/

* kettle入门/

* 01 kettle简介

* 02 kettle下载

* 03 kettle部署

* 04 kettle简介

* 05 kettle快速体验

* 06 执行结果

* 07 kettle核心概念

* kettle输入控件/

* 01 CSV文件输入

* 02 文本文件输入

* 03 Excel输入

* 04 多文件合并

* 05 get data from xml

* 06 json input

* 07 生产记录

* 08 表输入

* kettle输出控件/

* 01 Excel输出

* 02 文本文件输出

* 03 SQL文件输出

* 04 表输出

* 05 更新

* 06 插入更新

* 07 删除

* kettle转换控件/

* 01 concat fields

* 02 值映射

* 03 增加常量

* 04 增加序列

* 05 字段选择

* 06 计算器

* 07 字符串剪切、替换、操作

* 08 去除重复记录、排序记录

* 09 唯一行（哈希值）

* 10 拆分字段

* 11 列拆分为多行

* 12 列转行

* 13 行转列

* 14 行扁平化

* kettle应用控件/

* 01 替换NULL值

* 02 写日志

* kettle流程控件/

* 01 switch case

* 02 过滤记录

* 03 空操作

* 04 中止

* kettle查询控件/

* 01 Http client

* 02 数据库查询

* 03 数据库连接

* 04 流查询

* kettle连接控件/

* 01 合并记录

* 02 记录关联（笛卡尔积）

* 03 记录集关联

* kettle统计控件/

* 01 分组

* kettle映射控件/

* 01 映射

* kettle脚本控件/

* 01 javascript 代码

* 02 java代码

* 03 执行SQL脚本

* kettle作业和参数/

* 01 作业

* 02 全局参数

* 03 常量传递

* 04 转换命名参数

* 05 设置变量、获取变量

* 06 作业中设置变量

* 07 发送邮件

* 第五章 kettle 8.2 ETL项目实战教程/

* sakila项目简介/

* 01 sakila业务简介

* 02 sakila数据库的表和总体设计规范

* 03 sakila数据库表之间的关系和字段

* 04 创建sakila数据库和插入数据

* 05 维度建模的基本概念

* 06 维度建模的三种模式和命名规范

* 07 管理维度表各种键和缓慢变化维的处理

* 09 sakila数据仓库模型简介

* 10 创建sakila_dwh数据仓库的库和表

* 加载日期维度/

* 01 dim_date表结构

* 02 生成十年记录和增加日期序列

* 03 生成日期date

* 04 生成短、中、长、全日期

* 05 生成天在年和月的第几天、星期名称和缩写、一年的第几周和一月的第几周

* 06 生成月份、月的名称、月的缩写、两位和四位的年

* 07 生成季度和季度名称

* 08 生成是否周的第一天和周的最后一天

* 09 是否为月的第一天和最后一天、年季度、年月份、年月缩写、日期代理键

* 10 加载数据到日期维度表

* 加载时间维度/

* 01 时间维度表结构

* 02 生成时数据

* 03 生成分秒的数据、进行时分秒的笛卡儿积关联输出

* 04 生成时间属性、加载时间维度表数据

* 加载员工维度/

* 01 员工维度表结构

* 02 获取员工维度表上次更新的时间

* 03 从员工表中加载最新数据、字段选择、值映射

* 04 加载SCD2的员工维度表数据

* 加载用户维度/

* 01 用户维度表结构

* 02 获取上次更新的时间、从customer表中加载最新的数据

* 03 构建映射、查询Address、City、Country表

* 04 判断是否有第二地址、地址连接、字段选择

* 05 字段选择、值映射、加载最新用户维度数据

* 加载商店维度/

* 01 商店维度表结构

* 02 加载商店维度数据

* 加载演员维度/

* 01 演员维度表结构

* 02 加载最新的演员维度数据

* 加载电影维度/

* 01 电影维度表结构

* 02 获取上次更新时间和最新表数据

* 03 查询语言和评级字段映射

* 04 将special_features列拆分为多行、添加常量Yes和No、将special_feature列转行

* 05 将special_feature的Null进行替换

* 06 获取电影分类的id和电影分类的名称

* 07 增加Yes常量、将category进行列转行

* 08 将category的null替换为No

* 09 加载处理好的数据到电影维度表

* 10 计算演员的权重因子、更新dim_film_actor_bridge维度表

* 加载租赁事实/

* 01 租赁事实表结构

* 02 加载租聘事实表数据、字段选择

* 03 处理租聘周期

* 04 获取film_key、customer_key、staff_key、store_key

* 05 添加常量count_rentals、加载事实表数据

* 加载作业/

* 01 构建load_rentals作业

* 第六章 kettle 8.2 大数据整合/

* 开发环境搭建/

* 01 安装环境简介

* 02-安装node-1虚拟机系统

* 03 使用SecureCRT连接操作系统

* 04 安装CDH安装环境所需依赖包

* 05 卸载Open jdk

* 06 关闭防火墙和安全防护

* 07 安装lrzsz

* 08 安装jdk

* 09 安装和配置并启动NTP服务

* 10 修改hosts文件

* 11 克隆出虚拟机node-2

* 12 克隆虚拟机node-3

* 13 修改node-1的内存信息、使用SecureCRT连接node-2和node-3

* 14 配置免密登录

* 15 mysql安装

* 16 mysql允许远程访问

* 17 创建hive和amon数据库

* 18 在node-1上安装Cloudera Manager 01

* 19 在node-1上安装Cloudera Manager 02

* 20 cm server 和 agent的启动

* 21 CDH的安装

* kettle整合Hadoop/

* 01 Hadoop环境准备

* 02 kettle配置Hadoop的环境

* 03 Hadoop file input组件

* 04 Hadoop file output

* kettle整合hive/

* 01 Hive数据的初始化

* 02 kettle配置Hive的环境

* 03 从hive中读取数据

* 04 把数据写入到hive

* 05 通过Hadoop copy files作业组件把数据加载到hive数据库中

* 06 执行Hive的HiveSQL语句

* kettle整合hbase/

* 01 HBase初始化

* 02 HBase Input控件

* 03 HBase Output控件

* 第七章 Apache Druid/

* druidi基础部分/

* 1-druid介绍

* 2-druid单机版安装

* 3-druid单机版加载&查询数据

* 4-druid重要概念roll-up

* 5-druid重要概念-列式存储

* 6-druid中的datasource与segment概念介绍

* 7-segment的存储结构

* 8-druid中的位图索引

* 9-druid架构及原理介绍

* druid集群部署/

* 10druid集群搭建-historical配置

* 11druid集群搭建-middlemanager配置

* 12-druid集群搭建-broker节点配置

* 13-druid集群搭建coordinator&overlord

* 14-druid集群搭建启动验证

* 15-druid离线-本地索引方式加载数据

* druid数据摄取/

* 16-druid离线-hadoopdruidindexer方式摄取数据

* 17-druid-实时摄取数据-kafkaindexingservice

* 01-druid数据查询-filter-selector

* druid数据查询/

* 2-正则过滤器（regexfilter)

* 03-druid数据查询-(logical expression filter)

* 04-druid数据查询-filter-in过滤器

* 05-druid数据查询(boundfilter)

* 06-granularity-simple

* 07-granularity(duration&period)

* 08-aggregator之countAggregator&sumAggregator

* 09-aggregator-Min&MaxAggregator

* 10-aggregator-去重聚合器datasketch-aggregator

* 11-postAggregator-点击率

* 12-时间序列查询

* 13-topN查询

* 14-groupBy查询

* druid项目实战/

* 15-druid项目介绍

* 16-druid项目日志模拟程序

* 17-模拟程序发送日志数据到kafka

* 18-项目案例预处理

* 19-flink生产消息到kafka

* 20-druid从kafka实时摄取数据

* 21-项目案例可视化

* 第八章电信信号强度诊断项目/

* 项目概述/

* 001-电信信号强度诊断项目-项目总体阶段介绍

* 002-电信信号强度诊断项目-第一阶段介绍

* 003-电信信号强度诊断项目-项目背景介绍

* 004-电信信号强度诊断项目-系统功能模块概述

* 005-电信信号强度诊断项目-系统功能模块概述总结

* 006-电信信号强度诊断项目-后端模块介绍概述总结

* 007-电信信号强度诊断项目-数据处理流程

* 008-电信信号强度诊断项目-逻辑架构介绍

* 009-电信信号强度诊断项目-历史数据介绍-networkqualityinfo

* 010-电信信号强度诊断项目-历史数据介绍-app_traffic

* 011-电信信号强度诊断项目-历史数据介绍-cell_strength

* 012-电信信号强度诊断项目-历史数据介绍-cell_strength

* 013-电信信号强度诊断项目-历史数据介绍-device与network

* 014-电信信号强度诊断项目-历史数据实例数据

* 015-电信信号强度诊断项目-详细需求介绍-首页面

* 016-电信信号强度诊断项目-详细需求介绍-信号覆盖

* 017-电信信号强度诊断项目-详细需求介绍-网络质量

* 018-电信信号强度诊断项目-详细需求介绍-数据连接

* 019-电信信号强度诊断项目-详细需求介绍-热门APP

* 020-电信信号强度诊断项目-详细需求介绍-热门手机

* 021-电信信号强度诊断项目-详细需求介绍-热门手机

* 022-电信信号强度诊断项目-详细需求介绍-个人用户

* 023-电信信号强度诊断项目-项目设计策略

* 024-电信信号强度诊断项目-技术选型

* 025-电信信号强度诊断项目-离线数据入库流程

* 026-电信信号强度诊断项目-离线数据计算及总结

* 027-电信信号强度诊断项目-实时业务数据采集、数据计算及总结

* 028-电信信号强度诊断项目-结果数据创建索引介绍及总结

* 029-电信信号强度诊断项目-地标的配置文件及浏览器兼容性

* 030-电信信号强度诊断项目-第一阶段总结

* 离线数据入库/

* 031-电信信号强度诊断项目-第二阶段目标及数据上传

* 032-电信信号强度诊断项目-创建表及数据入库

* 033-电信信号强度诊断项目-创建表及数据入库验证及总结

* 034-电信信号强度诊断项目-数据拆分需求及实现思路

* 035-电信信号强度诊断项目-数据拆分map代码

* 036-电信信号强度诊断项目-数据拆分reduce代码

* 037-电信信号强度诊断项目-数据拆分驱动代码

* 038-电信信号强度诊断项目-数据拆分效果

* 039-电信信号强度诊断项目-数据拆分总结

* 040-电信信号强度诊断项目-第二阶段总结

* 离线数据整理/

* 041-电信信号强度诊断项目-第三阶段概述及步骤

* 042-电信信号强度诊断项目-第三阶段补充

* 043-电信信号强度诊断项目-第三阶段目标总结

* 044-电信信号强度诊断项目- 实时业务SQL

* 045-电信信号强度诊断项目- 实时业务SQL总结

* 046-电信信号强度诊断项目- 首页用户分布SQL

* 047-电信信号强度诊断项目- 平均上行-下行速率SQL

* 048-电信信号强度诊断项目- 热门APP排名SQL

* 049-电信信号强度诊断项目- 热门手机流量排名SQL

* 050-电信信号强度诊断项目- 报表SQL整理思路介绍

* 051-电信信号强度诊断项目- 信号强度覆盖SQL

* 052-电信信号强度诊断项目- 剩余6个模块的SQL

* 053-电信信号强度诊断项目- 相同结果比表SQL整理

* 054-电信信号强度诊断项目- 相同结果比表SQL拆分

* 055-电信信号强度诊断项目- 结果表字段提取（确定）

* 056-电信信号强度诊断项目- 结果表字段补充

* 057-电信信号强度诊断项目-结果表NWQuality特殊字段的逻辑

* 058-电信信号强度诊断项目-结果表Signal_Strength特殊字段的逻辑

* 059-电信信号强度诊断项目-结果表app_traffic特殊字段的逻辑

* 060-电信信号强度诊断项目-结果表DataConnection特殊字段的逻辑

* 061-电信信号强度诊断项目-特殊字段逻辑总结

* 062-电信信号强度诊断项目-创建自定义逻辑工程

* 063-电信信号强度诊断项目-处理逻辑1-2及创建自定义逻辑主类

* 064-电信信号强度诊断项目-处理逻辑3-信号强度转化代码

* 065-电信信号强度诊断项目-处理逻辑3-信号强度转化代码运行效果

* 066-电信信号强度诊断项目-处理逻辑4-networktype转化需求整理

* 067-电信信号强度诊断项目-处理逻辑4-networktype转化代码1

* 068-电信信号强度诊断项目-处理逻辑4-networktype转化代码2

* 069-电信信号强度诊断项目-处理逻辑4-networktype转化效果及总结

* 070-电信信号强度诊断项目-处理逻辑5-lanmark转化需求及代码

* 071-电信信号强度诊断项目-处理逻辑5-补充

* 072-电信信号强度诊断项目-处理逻辑6-厂商型号拼接

* 073-电信信号强度诊断项目-处理逻辑7-os version拼接

* 074-电信信号强度诊断项目-处理逻辑8-包名是否为all

* 075-电信信号强度诊断项目-NWQuality提取数据SQL编写

* 076-电信信号强度诊断项目-NWQuality提取数据SQL运行效果

* 077-电信信号强度诊断项目-NWQuality提取数据总结

* 078-电信信号强度诊断项目-Signal_Strength提取数据SQL编写

* 079-电信信号强度诊断项目-Signal_Strength提取数据效果及总结

* 080-电信信号强度诊断项目-app_traffic-data_connection提取数据效果

* 081-电信信号强度诊断项目-tb_counts提取数据

* 082-电信信号强度诊断项目-结果表数据加工

* 083-电信信号强度诊断项目-phoenix介绍及安装

* 084-电信信号强度诊断项目-phoenix介绍及安装总结

* 085-电信信号强度诊断项目-phoenix使用方式

* 086-电信信号强度诊断项目-phoenix索引类型

* 087-电信信号强度诊断项目-phoenix测试索引准备数据

* 088-电信信号强度诊断项目-phoenix测试索引结论

* 089-电信信号强度诊断项目-创建结果表

* 090-电信信号强度诊断项目-结果表加载数据

* 090-电信信号强度诊断项目-业务类型整理

* 091-电信信号强度诊断项目-项目运行

* 092-电信信号强度诊断项目-项目代码结构介绍

* 093-电信信号强度诊断项目-NWQuality创建索引1

* 094-电信信号强度诊断项目-NWQuality创建索引2

* 095-电信信号强度诊断项目-NWQuality创建索引效果及总结

* 096-电信信号强度诊断项目-Signal_Strength创建索引

* 097-电信信号强度诊断项目-DataConnection-APP_TRAFFIC创建索引

* 098-电信信号强度诊断项目-验证索引生效

* 099-电信信号强度诊断项目-报表类型总结

* 100-电信信号强度诊断项目-echarts柱状图饼状图介绍

* 101-电信信号强度诊断项目-热力图代码介绍

* 102-电信信号强度诊断项目-瓷砖图代码介绍

* 103-电信信号强度诊断项目-街景图思路介绍

* 104-电信信号强度诊断项目-散点图介绍

* 105-电信信号强度诊断项目-第三阶段总结1-2步

* 106-电信信号强度诊断项目-第三阶段总结3-4步

* 107-电信信号强度诊断项目-第三阶段总结5步

* 108-电信信号强度诊断项目-第三阶段总结-界面类型

* 实时数据生成及计算/

* 109-电信信号强度诊断项目-第四阶段介绍

* 110-电信信号强度诊断项目-第四阶段介绍总结

* 111-电信信号强度诊断项目-开启mysqlbinlog-创建数据库及表

* 112-电信信号强度诊断项目-生成系统插入数据

* 113-电信信号强度诊断项目-生成系统插入数据2

* 114-电信信号强度诊断项目-canal安装部署

* 115-电信信号强度诊断项目-canal解析代码上

* 116-电信信号强度诊断项目-canal解析代码下

* 117-电信信号强度诊断项目-canal代码运行效果

* 118-电信信号强度诊断项目-Flume数据收集1

* 119-电信信号强度诊断项目-Flume数据收集2

* 120-电信信号强度诊断项目-Flume收集数据验证（历史数据收集成功）

* 121-电信信号强度诊断项目-Flume收集数据验证（实时数据收集成功）

* 122-电信信号强度诊断项目-实时计算流程介绍及创建项目

* 123-电信信号强度诊断项目-实时计算代码

* 124-电信信号强度诊断项目-实时计算动态效果

* 125-电信信号强度诊断项目-实时业务-数据成产收集总结

* 126-电信信号强度诊断项目-实时业务-数据计算总结

* 第九章 zeppelin实战/

* zeppelin介绍/

* 01.【zeppelin实战】课程目标和课程内容介绍

* 02.【zeppelin实战】zeppelin介绍-基本介绍

* 03.【zeppelin实战】zeppelin介绍-zeppelin的使用场景

* 04.【zeppelin实战】zeppelin介绍-zeppelin的源码结构介绍

* zeppelin的安装部署及入门案例/

* 05.【zeppelin实战】zeppelin的安装部署

* 06.【zeppelin实战】zeppelin的ui功能介绍

* 07.【zeppelin实战】zeppelin的入门案例

* zeppelin的interperter/

* 08.【zeppelin实战】zeppelin的interperter介绍

* 09.【zeppelin实战】zeppelin的interperter-shell的使用

* 10.【zeppelin实战】zeppelin的interperter-创建mysql解释器

* 11.【zeppelin实战】zeppelin的interperter-使用mysql解释器创建notebook

* 12.【zeppelin实战】zeppelin的interperter-创建hive解释器

* 13.【zeppelin实战】zeppelin的interperter-使用hive解释器创建notebook

* 14.【zeppelin实战】zeppelin的interperter-使用spark standalone环境运行任务

* 15.【zeppelin实战】zeppelin的interperter-使用spark yarn环境运行任务

* 16.【zeppelin实战】zeppelin的可视化

* zeppelin的自定义解析器/

* 17.【zeppelin实战】zeppelin的自定义解析器-mongodb环境安装

* 18.【zeppelin实战】zeppelin的自定义解析器-安装mongodb客户端并初始化数据

* 19.【zeppelin实战】zeppelin的自定义解析器-安装部署mongodb解析器

* 20.【zeppelin实战】zeppelin的自定义解析器-创建mongodb解析器和notebook

* 22.【zeppelin实战】zeppelin集成shiro权限认证

* 23.【zeppelin实战】zeppelin课程总结

* 第十章数据湖/

* 数据湖概念/

* 00-课程目标

* 01-1-1-企业的数据困扰

* 01-1-2-补充-结构化-半结构化-非结构化数据

* 01-2-数据湖的概念

* 01-3-数据湖-数仓-数据集市的区别

* 数据湖理论/

* 02-1-写时模式和读时模式

* 02-2-3种常见的数据湖实现方案

* 02-3-数据湖对企业的价值

* 02-4-数据湖概念的总结

* 02-5-数据湖的4个设计原则

* 数据处理、数据应用的几种架构/

* 03-Lambda架构的简单介绍

* 数据湖基于Hadoop、Spark的实现/

* 04-数据湖的核心以及和普通大数据分析平台的不同

* Delta Lake - 数据湖核心的增强/

* 05-1-DeltaLake的简介和重点特性解读

* 05-2-DeltaLake的使用形式

* Delta Lake - Quickstart/

* 06-1-DeltaLake创建表-读取表-覆盖表操作

* 06-2-DeltaLake有条件更新和合并操作

* 06-3-DeltaLake的数据版本控制

* 06-4-DeltaLake的事务日志

* Delta Lake 操作/

* 07-1-DeltaLake表分区和追加

* 07-2-DeltaLake-Schema验证

* 07-3-DeltaLake-更新和删除对Parquet数据文件的影响

* 07-4-DeltaLake-vacuum方法

* 07-5-DeltaLake-表常用工具和阶段总结

* Delta Lake 理论/

* 08-1-DeltaLake-事务日志概念回顾

* 08-2-DeltaLake-Schema演化相关概念回顾

* 08-3-DeltaLake-最佳实践和总结

* 企业数据湖应用案例分析/

* 09-1-案例需求分析

* 09-2-1-基础数据（中间数据）的准备

* 09-2-2-基础数据增加新列

* 09-2-3-统计每小时TOP10热门查询关键词

* 09-2-4-统计全天热门TOP100查询关键词

* 09-2-5-导出数据为普通parquet文件

* 09-3-第九章总结

* 基于AWS的云上数据湖实现方案介绍/

* 10-1-1云平台的基础概念

* 10-1-2-两类云平台和主流公有云平台介绍

* 10-1-3-IaaS-PaaS-SaaS的概念

* 10-1-4-云平台对企业的意义

* 10-2-1-AWS-S3简介

* 10-2-2-AWS-Athena分析框架简介

* 10-2-3-AWS-EMR-集群模式介绍

* 10-2-4-AWS-EMR-步骤运行模式介绍

* 10-2-5-AWS-Glue-ETl-简单介绍

* 10-2-6-AWS-其它辅助工具介绍和课程总结

* 第十一章 NiFi/

* NiFi概念和入门/

* 1.Nifi是什么

* 2.NiFi核心概念

* 3.NiFi架构

* 4.NiFi的性能

* 5.NiFi关键特性

* 6.NiFi安装-1

* 7.NiFi安装-2

* 8.了解NiFi处理器

* 9.了解Nifi其他组件

* 10.应用场景1

* 11.应用场景2-1

* 12.应用场景2

* 13.处理器类别

* 14.FlowFile属性

* 15.NiFi模版

* 16.监控NiFi

* 17.NiFi数据来源

* 18.常见问题

* 19.入门总结

* NiFi深入学习/

* 20.NiFi深入学习阶段大纲

* 21.Linux配置优化

* 22.NiFi集群知识点

* 23.内嵌ZK模式集群-1

* 24.内嵌ZK模式集群-2

* 25.外部ZK模式集群

* 26.NiFi集群知识点

* 27.NiFi集群总结

* 28.FlowFile生成器1

* 29.FlowFile生成器2

* 30.NiFi模版和组

* 31.FlowFile操作1

* 32.FlowFile操作2

* 33.使用表达式语言

* 34.NiFi监控1

* 35.NiFi监控2

* 36.NiFi监控总结

* 37.连接与关系

* 38.连接与关系总结

* NiFi典型案例/

* 39.离线同步Mysql数据到HDFS1

* 40.离线同步Mysql数据到HDFS2

* 41.离线同步Mysql数据到HDFS3

* 42.Json内容转换为Hive所支持的文本格式1

* 43.Json内容转换为Hive所支持的文本格式2

* 44.实时同步Mysql到Hive-1

* 45.实时同步Mysql到Hive-2

* 46.实时同步Mysql到Hive-3

* 47.Kafka使用-知识点

* 48.Kafka生产者案例

* 49.Kafka消费者案例

* 第十二章 TiDB/

* TiDB引入/

* 01-课程介绍

* 02-学习目标

* 03-数据库技术发展史

* 04-从MySQL到TiDB

* 05-TiDB概述

* 06-TiDB扩展知识-SQL-NoSQL-NewSQL-OLTP-OLAP

* TiDB架构特性/

* 07-TiDB整体架构

* 08-TiDB核心特性

* 09-TiDB存储和计算能力的保证

* TiDB安装部署/

* 10-TiDB安装部署方式选择

* 11-TiDB安装部署-Local单机版

* 12-TiDB安装部署-Docker集群版

* 13-其他依赖软件安装介绍

* TiDB实践案例/

* 14-TiDB-SQL操作

* 15-TiDB-读取历史数据

* 16-TiDB-整合Spark-TiSpark

* 17-TiDB数据迁移-TiDB-Lightning-1

* 18-TiDB数据迁移-TiDB-Lightning-2

* TiDB技术内幕/

* 19-TiDB技术内幕-存储

* 20-TiDB技术内幕-计算

* 21-TiDB技术内幕-调度

* TiDB源码剖析/

* 22-TiDB源码阅读步骤

* TiDB大厂实践/

* 23-TiDB大厂实践介绍

* 第十三章 superset可视化实战/

* superset的介绍/

* 01.【superset可视化】课程目标和课程内容介绍

* 02.【superset可视化】BI与报表工具的区别

* 03.【superset可视化】superset的介绍

* superset的安装部署及入门案例/

* 04.【superset可视化】superset的安装部署

* 05.【superset可视化】superset的入门案例

* 06.【superset可视化】superset的功能介绍

* 07.【superset可视化】mysql订单分析案例实战

* 08.【superset可视化】superset权限控制-权限介绍及匿名访问

* 09.【superset可视化】superset权限控制-角色介绍及管理操作

* 电商数据分析案例实战/

* 10.【superset可视化】电商数据分析案例实战-案例介绍

* 11.【superset可视化】电商数据分析案例实战-系统架构

* 12.【superset可视化】电商数据分析案例实战-准备数据集

* 13.【superset可视化】电商数据分析案例实战-安装sqoop数据同步工具

* 14.【superset可视化】电商数据分析案例实战-使用sqoop将mysql数据导入到hive中

* 15.【superset可视化】电商数据分析案例实战-hive数据分析-订单支付总额和笔数分析

* 16.【superset可视化】电商数据分析案例实战-hive数据分析-下订单用户总数分析

* 17.【superset可视化】电商数据分析案例实战-hive数据分析-支付方式订单总额及笔数分析

* 18.【superset可视化】电商数据分析案例实战-hive数据分析-订单笔数Top5用户分析

* 19.【superset可视化】电商数据分析案例实战-hive数据分析-商品分类订单总额及笔数分析

* 20.【superset可视化】电商数据分析案例实战-hive分析的结果数据导出到mysql中

* 21.【superset可视化】电商数据分析案例实战-可视化开发-配置superset数据源

* 22.【superset可视化】电商数据分析案例实战-可视化开发-订单销售总额和总数开发

* 23.【superset可视化】电商数据分析案例实战-可视化开发-不同支付方式订单总额及数量的开发

* 24.【superset可视化】电商数据分析案例实战-可视化开发-订单商品分类开发

* 25.【superset可视化】电商数据分析案例实战-可视化开发-订单分析看板开发

* 26.【superset可视化】电商数据分析案例实战-可视化开发-将图表组装到html页面

* 27.【superset可视化】课程总结

* 阶段二中级进修课-智慧学成项目和推荐系统项目/

* 第一章智慧学成-项目介绍环境搭建/

* 项目介绍（智慧学成学习资料在此下载~）/

* 01-项目介绍-学习目标&项目背景和概述

* 02-项目介绍-业务流程

* 03-项目介绍-功能模块

* 04-项目介绍-技术架构

* 环境搭建/

* 05-环境搭建-学习目标&CDH组件介绍

* 06-环境搭建-CDH环境搭建

* 07-环境搭建-配置hosts

* 08-环境搭建-配置Maven

* 09-环境搭建-IDEA环境配置

* 10-环境搭建-导入Scala基础工程&基础工程介绍

* 11-环境搭建-wordcount代码编写及idea代码测试

* 12-环境搭建-wordcount任务提交到集群执行

* 13-Zeppelin简介、Zeppelin调式Spark程序

* 14-Hue简介、Hue操作hive及hdfs

* 第二章智慧学成-数据仓库与ETL/

* 数据仓库/

* 15-数据仓库-学习目标、数据仓库介绍

* 16-数据仓库-数据仓库的特点

* 17-数据仓库-维度分析

* 18-数据仓库-数据仓库建模

* 19-数据仓库-Hive创建数据仓库

* ETL/

* 01-ETL-学习目标

* 02-ETL-ETL介绍

* 课程访问量需求分析/

* 03-ETL-课程访问量需求分析-

* 采集系统/

* 04-ETL-采集系统介绍

* 05-ETL-采集系统搭建

* 06-ETL-采集系统-测试采集课程访问量

* NiFi/

* 07-ETL-NiFi介绍

* 08-ETL-快速入门

* 维度数据采集/

* 09-ETL-维度数据采集-维度介绍-

* 10-ETL-维度数据采集-导入学成在线业务数据

* 11-ETL-维度数据采集-导入NiFi源码&执行采集

* 12-ETL-维度数据采集-注意事项-NiFi采集乱码处理

* 13-ETL-维度数据采集-区域维度原文件上传HDFS&spark读取文件

* 14-ETL-维度数据采集-区域维度原文件数据与实体映射

* 15-ETL-维度数据采集-区域维度字段关联及区域维度数据入库

* 16-ETL-维度数据采集-区域维度-注意事项：winutils配置

* 课程访问量-数据清洗/

* 01-ETL-数据清洗-课程访问量事实表字段介绍&清洗逻辑介绍

* 02-ETL-数据清洗-课程访问量清洗-获取维度数据&原始数据

* 03-ETL-数据清洗-课程访问量清洗-过滤机器人&关联维度

* 04-ETL-数据清洗-课程访问量清洗-去重&保存到数据仓库

* 05-ETL-数据清洗-课程访问量清洗-测试

* 06-ETL-数据清洗-课程访问量清洗-使用NiFi生产数据并测试

* 第三章智慧学成-课程分析/

* 课程访问量-统计分析/

* 07-课程分析-学习目标

* 08-课程分析-课程访问量分析-功能概述&统计分析步骤

* 09-课程分析-课程访问量分析-步骤1：读取课程访问量事实表数据

* 10-课程分析-课程访问量分析-步骤2：课程访问量统计求和

* 11-课程分析-课程访问量分析-步骤3：课程访问量统计结果保存数据仓库

* 12-课程分析-课程访问量分析-使用NiFi将课程访问量分析结果同步到MySQl

* 13-课程分析-课程访问量分析-集成测试概述

* 14-课程分析-课程访问量分析-集成测试-数据清洗统计分析NiFi调度

* 15-课程分析-课程访问量分析-集成测试-联动（清洗、统计分析、同步到业务库）配置并测试

* 业务报表系统搭建/

* 16-业务报表系统搭建-Web前端使用说明&Yapi使用说明

* 17-业务报表系统搭建-使用业务后台接口展示业务报表

* 课程购买量-需求分析/

* 01-课程分析-课程购买量-需求分析

* 课程购买量-数据采集/

* 02-课程分析-课程购买量-采集字段及存储分析

* 03-课程分析-课程购买量-MySQL采集注意事项

* 04-课程分析-课程购买量-NiFi采集MySQL配置

* 05-课程分析-课程购买量-测试NiFi采集MySQL

* 06-课程分析-课程购买量-NiFi生产订单数据保存到MySQL&并进行实时采集

* 课程购买量-数据清洗/

* 07-课程分析-课程购买量-数据清洗-DWD（事实表）结构分析

* 08-课程分析-课程购买量-数据清洗-用户维度采集

* 课程购买量-统计分析/

* 09-课程分析-课程购买量-DWD代码-维度数据获取

* 10-课程分析-课程购买量-DWD代码-事实表数据封装

* 11-课程分析-课程购买量-DWD代码-保存到数据仓库

* 12-课程分析-课程购买量-DWD代码-测试清洗入库

* 13-课程分析-课程购买量-DWM层结构分析

* 14-课程分析-课程购买量-DWM代码-轻度聚合封装数据

* 15-课程分析-课程购买量-DWM代码-保存到数据仓库&测试入库

* 16-课程分析-课程购买量-统计分析

* 17-课程分析-课程购买量-使用NiFi将业务数据从数据仓库同步到MySQL

* 课程购买量-集成测试/

* 18-课程分析-课程购买量-集成测试-概述&NiFi调度数据清洗分析任务

* 19-课程分析-课程购买量-集成测试-联动配置&整流程测试

* 热门学科排名-需求分析/

* 01-热门学科排名-需求分析

* 02-热门学科排名-业务报表系统字段分析

* 热门学科排名-用户选课-数据采集/

* 03-热门学科排名-采集字段及存储分析

* 04-热门学科排名-NiFi采集用户选课数据&测试

* 05-热门学科排名-NiFi生产用户选课数据保存到MySQL&并进行实时采集

* 热门学科排名-用户选课-数据清洗/

* 06-热门学科排名-用户选课DWD层字段说明&清洗分析

* 07-热门学科排名-用户选课-DWD代码-获取维度数据&用户选课原始数据

* 08-热门学科排名-用户选课-DWD代码-事实表数据封装&保存到数据仓库

* 09-热门学科排名-用户选课-DWD代码-测试清洗入库

* 热门学科排名-维度数据采集/

* 10-热门学科排名-统计分析概述&课程分类维度采集

* 热门学科排名-统计分析/

* 11-热门学科排名-统计分析-销售量-周-统计分析步骤

* 12-热门学科排名-统计分析-销售量-周-代码-获取周区间日期

* 13-热门学科排名-统计分析-销售量-周-代码-根据日期获取数据并计算涨幅

* 14-热门学科排名-统计分析-销售量-周-代码-维度关联&保存到数据仓库

* 15-热门学科排名-统计分析-销售量-周-代码-抽取工具类&测试入库

* 16-热门学科排名-统计分析-销售量-月-统计分析步骤及代码编写

* 17-热门学科排名-统计分析-销售量-月-测试入库

* 18-热门学科排名-统计分析-学生人数-周-统计分析步骤

* 19-热门学科排名-统计分析-学生人数-周-代码-获取周区间&获取数据&计算涨幅

* 20-热门学科排名-统计分析-学生人数-周-代码-维度关联&保存到数据仓库

* 21-热门学科排名-统计分析-学生人数-周-代码-抽取工具类&测试入库

* 22-热门学科排名-统计分析-学生人数-月-统计分析步骤&代码编写

* 23-热门学科排名-统计分析-学生人数-月-测试入库

* 24-热门学科排名-统计分析-销售额-周-统计分析步骤&代码编写

* 25-热门学科排名-统计分析-销售额-周-测试入库

* 26-热门学科排名-统计分析-销售额-月-统计分析步骤&代码编写

* 27-热门学科排名-统计分析-销售额-月-测试入库

* 28-热门学科排名-统计分析-使用NiFi将业务数据从数据仓库同步到MySQL

* 热门学科排名-集成测试/

* 29-热门学科排名-集成测试-配置NiFi调度数据清洗分析任务

* 30-热门学科排名-集成测试-测试NiFi调度数据清洗分析

* 31-热门学科排名-集成测试-联动配置&测试

* 32-热门学科排名-集成测试-报表系统Web展示

* 第四章智慧学成-平板看台/

* 实时分析-需求分析/

* 01-实时分析-学习目标

* 02-实时分析-平台看板需求分析&实时分析应用场景

* 03-实时分析-实时分析技术方案

* 04-实时分析-指标与维度分析&数据存储分析

* 实时分析-今日访问量-数据采集/

* 05-实时分析-今日访问量-概述&数据采集

* 实时分析-今日访问量统计分析/

* 06-实时分析-今日访问量-统计分析逻辑

* 07-实时分析-今日访问量-代码-redis获取kafka的offset

* 08-实时分析-今日访问量-代码-SparkStreaming获取kafka中的数据

* 09-实时分析-今日访问量-代码-去重计算实时访问量&保存redis

* 10-实时分析-今日访问量-代码-redis中保存当前offset进度

* 11-实时分析-今日访问量-代码-测试

* 12-实时分析-今日访问量-NiFi生产数据&测试

* 实时分析-新增用户量-数据采集/

* 13-实时分析-新增用户量-概述&数据采集

* 实时分析-新增用户量统计分析/

* 14-实时分析-新增用户量-统计分析逻辑

* 15-实时分析-新增用户量-代码-实时计算新增用户量

* 16-实时分析-新增用户量-代码-测试

* 17-实时分析-新增用户量-NiFi生产数据&测试

* 实时分析-今日购买量数据采集/

* 18-实时分析-今日购买量-概述&数据采集

* 实时分析-今日购买量统计分析/

* 19-实时分析-今日购买量-统计分析逻辑&代码

* 20-实时分析-今日购买量-代码-测试

* 21-实时分析-今日购买量-NiFi生产数据&测试

* 实时分析-集成测试/

* 22-实时分析-集成测试-NiFi调度配置

* 23-实时分析-集成测试-测试&web展示

* 第五章智慧学成-即时查询/

* 即时查询-学习目标/

* 即时查询-学习目标

* 即时查询-需求分析/

* 即时查询-需求分析&技术方案

* 即时查询-技术方案-代码演示-保存-代码

* 即时查询-技术方案-代码演示-保存-测试

* 即时查询-技术方案-代码演示-查询-代码&测试

* 即时查询-采集分析&存储分析

* 即时查询-数据采集/

* 即时查询-数据采集-用户学习采集

* 即时查询-数据采集-课程视频维度采集

* 即时查询-统计分析/

* 即时查询-统计分析-概述&步骤1统计逻辑&中间表介绍

* 即时查询-统计分析-步骤1：代码-获取原始数据

* 即时查询-统计分析-步骤1：代码-注册udf函数

* 即时查询-统计分析-步骤1：代码-关联相关维度&统计学习时长

* 即时查询-统计分析-步骤1：代码-测试

* 即时查询-统计分析-步骤2：概述

* 即时查询-统计分析-步骤2：代码

* 即时查询-统计分析-步骤2：测试

* 即时查询-统计分析-使用hbase注意事项

* 即时查询-统计分析-NiFi生产数据-配置

* 即时查询-统计分析-NiFi生产数据-测试&代码测试

* 即时查询-集成测试/

* 即时查询-集成测试-配置

* 即时查询-集成测试-测试&web展示

* 第六章智慧学成-系统集成测试/

* 系统集成测试-学习目标/

* 系统集成测试-学习目标&概述

* 系统集成测试-代码重新打包/

* 系统集成测试-代码重新打包-代码修改

* 系统集成测试-代码重新打包-上传NiFi容器

* 系统集成测试-NiFi采集-清洗-统计分析/

* 系统集成测试-NiFi采集-清洗-统计分析-概述&清理业务数据

* 系统集成测试-NiFi采集-清洗-统计分析-即时查询

* 系统集成测试-NiFi采集-清洗-统计分析-离线分析-课程访问量

* 系统集成测试-NiFi采集-清洗-统计分析-离线分析-课程购买量

* 系统集成测试-NiFi采集-清洗-统计分析-离线分析-热门学科排名

* 系统集成测试-NiFi采集-清洗-统计分析-实时分析

* 系统集成测试-NiFi采集-清洗-统计分析-web展示

* 第七章智慧学成-项目就业指导/

* 智慧学成-项目就业指导/

* 项目就业指导-就业指导概述&项目功能模块

* 项目就业指导-技术构架&技术栈-1

* 项目就业指导-技术构架&技术栈-2

* 项目就业指导-数据仓库是如何设计的？

* 项目就业指导-数据采集是如何实现的？

* 项目就业指导-ETL是如何做的？

* 项目就业指导-离线分析是如何实现的？

* 项目就业指导-同比分析在项目的应用？

* 项目就业指导-实时分析是如何做的？

* 项目就业指导-如何从海量数据查询想的数据？

* 项目就业指导-项目中任务调度是如何做的？

* 第八章中级进修课-推荐系统项目/

* 业务理解及核心算法/

* 1-黑马电商资讯类推荐-课程安排

* 2-黑马电商资讯类推荐-业务理解

* 3-黑马电商资讯类推荐-技术栈分析

* 4-黑马电商资讯类推荐-项目架构分析

* 5-黑马电商资讯类推荐-技术和业务实现结合

* 6-黑马电商资讯类推荐-什么是推荐系统

* 7-黑马电商资讯类推荐-推荐场景及混合推荐

* 8-黑马电商资讯类推荐-推荐算法简介

* 9-黑马电商资讯类推荐-如何设计推荐系统

* 10-黑马电商资讯类推荐-推荐引擎构建

* 11-黑马电商资讯类推荐-项目开发环境支持

* 12-黑马电商资讯类推荐-项目开发环境支持

* 13-黑马电商资讯类推荐-大数据环境支持

* 14-黑马电商资讯类推荐-ALS算法基础

* 15-黑马电商资讯类推荐-PySprk的ALS参数理解

* 16-黑马电商资讯类推荐-PySpark的ALS实战

* 17-黑马电商资讯类推荐-PySpark的ALS实战

* 18-黑马电商资讯类推荐-ALS优化分析

* 推荐算法及数据导入/

* 1-黑马电商资讯类推荐-召回算法之关联规则

* 2-黑马电商资讯类推荐-召回算法之Apriori算法详解

* 3-黑马电商资讯类推荐-召回算法之Apriori算法举例

* 4-黑马电商资讯类推荐-召回算法之FPGrowth算法详解

* 5-黑马电商资讯类推荐-召回算法之FPGrowth树频繁项挖掘

* 6-黑马电商资讯类推荐-召回算法之FPGrowth算法举例

* 7-黑马电商资讯类推荐-召回算法之SparkMl实战FPGrowth算法

* 8-黑马电商资讯类推荐-排序算法之逻辑回归引入

* 9-黑马电商资讯类推荐-排序算法之逻辑回归详解

* 10-黑马电商资讯类推荐-排序算法之逻辑回归注意事项及实战分析

* 11-黑马电商资讯类推荐-排序算法之逻辑回归实战分类问题及总结

* 12-黑马电商资讯类推荐-数据库迁移需求理解

* 13-黑马电商资讯类推荐-Sqoop迁移MySql数据

* 14-黑马电商资讯类推荐-Sqoop数据导入问题

* 15-黑马电商资讯类推荐-Sqoop数据导入实战

* 16-黑马电商资讯类推荐-Sqoop导入文章数据问题分析

* 17-黑马电商资讯类推荐-定时执行Sqoop脚本详解

* 数据采集及离线计算部分/

* 01-黑马电商资讯类推荐-用户行为数据收集思路

* 02-黑马电商资讯类推荐-埋点参数的设计

* 03-黑马电商资讯类推荐-Flume日志收集实战

* 04-黑马电商资讯类推荐-进程管理工具使用

* 05-黑马电商资讯类推荐-Flume日志收集监控管理实操

* 06-黑马电商资讯类推荐-用户行为数据采集及总结

* 07-黑马电商资讯类推荐-离线业务分析

* 08-黑马电商资讯类推荐-文章画像理解

* 09-黑马电商资讯类推荐-离线模块项目构建

* 10-黑马电商资讯类推荐-jiebe分词理解

* 11-黑马电商资讯类推荐-jiebe分词补充

* 12-黑马电商资讯类推荐-tfidf计算

* 13-黑马电商资讯类推荐-Word2vec计算

* 14-黑马电商资讯类推荐-Word2vec计算补充

* 15-黑马电商资讯类推荐-TextRank计算

* 16-黑马电商资讯类推荐-资讯文章画像TFIDF的计算步骤

* 17-黑马电商资讯类推荐-资讯文章画像的数据Merge操作

* 18-黑马电商资讯类推荐-资讯文章画像数据合并实战

* 19-黑马电商资讯类推荐-资讯文章画像数据sentense字段组合

* 离线资讯文章画像计算部分/

* 01-黑马电商资讯类推荐-资讯类文章TfIdf计算

* 02-黑马电商资讯类推荐-Spark训练CV和IDF模型

* 03-黑马电商资讯类推荐-关键词的计算和处理

* 04-黑马电商资讯类推荐-TextRank计算介绍

* 05-黑马电商资讯类推荐-关键词的计算方法

* 06-黑马电商资讯类推荐-主题词的计算方法

* 07-黑马电商资讯类推荐-离线文章画像更新需求及实践

* 08-黑马电商资讯类推荐-定时更新画像实践

* 09-黑马电商资讯类推荐-ApScheduler使用方式详解

* 10-黑马电商资讯类推荐-资讯类画像ApScheduler的调度

* 11-黑马电商资讯类推荐-supervisor结合ApScheduler完成调度

* 12-黑马电商资讯类推荐-问题重现及解决思路分析

* 13-黑马电商资讯类推荐-word2vec与文章相似度计算

* 14-黑马电商资讯类推荐-SparkMl文章相似度计算

* 15-黑马电商资讯类推荐-SparkMl的Word2Vec模型训练及保存

* 16-黑马电商资讯类推荐-任务执行问题的分析及解决方法

* 17-黑马电商资讯类推荐-增量更新文章画像计算

* 18-黑马电商资讯类推荐-资讯类文章画像处理和结果分析

* 用户画像及召回推荐/

* 1-黑马电商资讯类推荐-文章相似度计算和结果分析

* 2-黑马电商资讯类推荐-LSH的计算方法

* 3-黑马电商资讯类推荐-资讯文章相似度计算实战

* 4-黑马电商资讯类推荐-资讯类文章相似度结果存储Hbase

* 5-黑马电商资讯类推荐-相似度增量更新执行

* 6-黑马电商资讯类推荐-用户画像需求分析

* 7-黑马电商资讯类推荐-用户画像数据需求分析

* 8-黑马电商资讯类推荐-用户画像数据整合实战

* 9--黑马电商资讯类推荐-时间衰减因子分析及思路

* 10-黑马电商资讯类推荐-关键词及权重计算方法

* 11-黑马电商资讯类推荐-用户画像权重计算机存储

* 12-黑马电商资讯类推荐-用户基本信息画像简介

* 13-黑马电商资讯类推荐-画像更新计算

* 14-黑马电商资讯类推荐-apScheduler调度执行及总结

* 15-黑马电商资讯类推荐-离线召回与排序需求分析

* 16-黑马电商资讯类推荐-召回阶段需求分析及表设计

* 17-黑马电商资讯类推荐-als召回推荐项目实战

* 18-黑马电商资讯类推荐-als召回算法结果处理

* 19-黑马电商资讯类推荐-als召回结果存储

* 20-黑马电商资讯类推荐-fpgrowth召回算法项目实战

* 实时业务计算分析/

* 01-黑马电商资讯类推荐-实时计算业务梳理-

* 02-黑马电商资讯类推荐-GRPC简介

* 03-黑马电商资讯类推荐-GRPC原理详解

* 04-黑马电商资讯类推荐-推荐系统GRPC接口定义

* 05-黑马电商资讯类推荐-推荐系统GRPC服务端代码编写

* 06-黑马电商资讯类推荐-代码测试

* 07-黑马电商资讯类推荐-ABTest简介

* 08-黑马电商资讯类推荐-推荐系统ABTest试验参数设置配置

* 09-黑马电商资讯类推荐-ABTest实现用户分流

* 10-黑马电商资讯类推荐-推荐中心定义及逻辑梳理

* 11-黑马电商资讯类推荐-推荐系统Hbase关键表设计

* 12-黑马电商资讯类推荐-推荐系统推荐中心代码编写

* 13-黑马电商资讯类推荐-推荐中心推荐中心代码编写

* 14-黑马电商资讯类推荐-推荐中心流程测试

* 15-黑马电商资讯类推荐-问题梳理及关键点总结

* 16-黑马电商资讯类推荐-多路召回结果读取

* 17-黑马电商资讯类推荐-新资讯文章召回读取

* 18-黑马电商资讯类推荐-热门文章召回读取

* 19-黑马电商资讯类推荐-召回结果和推荐中心整合

* 20-黑马电商资讯类推荐-召回结果过滤思路梳理及代码编写

* 21-黑马电商资讯类推荐-召回结果过滤代码编写

* 22-黑马电商资讯类推荐-召回结果待推荐代码编写

* 23-黑马电商资讯类推荐-召回和推荐中心整合测试

* 24-黑马电商资讯类推荐-推荐中心加入缓存逻辑梳理

* 25-黑马电商资讯类推荐-缓存代码编写1

* 26-黑马电商资讯类推荐-缓存代码编写2

* 27-黑马电商资讯类推荐-推荐中心和缓存整合

* Ctr点击率预估排序/

* 01-黑马电商资讯类推荐-基于内容召回原理与实战

* 02-黑马电商资讯类推荐-基于内容召回测试及更新

* 03-黑马电商资讯类推荐-实时计算方法思路简介

* 04-黑马电商资讯类推荐-Flume+Kafka整合

* 05-黑马电商资讯类推荐-实时召回业务

* 06-黑马电商资讯类推荐-实时online推荐实战

* 07-黑马电商资讯类推荐-实时推荐测试

* 08-黑马电商资讯类推荐-热门文章召回

* 09-黑马电商资讯类推荐-新文章召回

* 10-黑马电商资讯类推荐-Spark性能调优

* 11-黑马电商资讯类推荐-离线排序模型构建思路

* 12-黑马电商资讯类推荐-SparkLR预估实战

* 13-黑马电商资讯类推荐-Ctr预估实战数据处理

* 14-黑马电商资讯类推荐-Ctr预估实战数据处理

* 15-黑马电商资讯类推荐-特征工程

* 16-黑马电商资讯类推荐-模型训练及数据处理

* 17-黑马电商资讯类推荐-模型分类效果评估

* 18-黑马电商资讯类推荐-离线Ctr用户特征中心更新实战

* 19-黑马电商资讯类推荐-离线Ctr文章特征中心更新实战

* 20-黑马电商资讯类推荐-特征存储及更新

* 21-黑马电商资讯类推荐-排序模型在线预测

* 22-黑马电商资讯类推荐-排序模型代码实战

* 23-黑马电商资讯类推荐-排序模型业务实战

* 24-黑马电商资讯类推荐-实时排序模型预测

* 25-黑马电商资讯类推荐-排序模型测试

* 26-黑马电商资讯类推荐-实时排序调度执行

* 简历指导/

* 01-简历指导

* 02-技能点撰写

* 03-项目架构及面试题部分

* 阶段三中级进修课-SparkMllib及用户画像项目/

* 第一章 SparkMllib&GRAPH/

* Spark机器学习基础/

* 01-机器学习和大数据的区别(一)

* 02-机器学习和大数据的区别和联系(二)

* 03-机器学习和大数据的区别和联系(三)

* 04-人工智能和机器学习的区别

* 05-数据分析和数据挖掘联系

* 06-什么是机器学习问题

* 07-基于规则的学习和基于模型的学习方式

* 08-机器学习数据集概述1

* 09-机器学习数据集概述2

* 10-机器学习数据集概述3

* 11-机器学习问题分类

* 12-机器学习三要素强化

* 13-构建机器学习模型的流程

* 14-模型选择

* 15-交叉验证及经验和结构风险

* SparkMllib库特征工程基础与实战(一)/

* 01-SparkMllib的功能

* 2-SparkMllib的版本

* 3-SparkMllib架构

* 4-环境搭建及RDD、DF、DS的转换实践

* 5-如何利用SparkMllib构建机器学习推荐架构

* 6.SparkMllib算法分类及应用场景

* 7-SparkMllib基础数据类型-localvector

* 8-SparkMllib基础数据类型-labelpoint

* 9.SparkMllib基础数据类型-libsvm数据读取

* 10.SparkMllib基础数据类型-localmatrix

* 11.SparkMllib基础数据类型-分布式行矩阵和行索引矩阵

* 12.SparkMllib基础数据类型-分块矩阵

* 13.SparkMllib均值和方差

* 14-SparkMllib相关系数

* 15-SparkMllib假设检验的卡方验证

* 16-SparkMllib假设检验和随机数的产生

* 17-特征提取tf-ifd

* 18-特征提取-word2vec实践

* 19-特征提取CountVector

* SparkMllib库特征工程基础与实战(二)/

* 20-特征转化的二值化操作

* 21-特征转换-PCA操作

* 22-特征转换-类别型数据和数值型数据转换

* 23-特征转换-OneHot编码方式

* 24-特征转换-VectorIndexer转换操作

* 25-正则项

* 26-数值型数据处理的方法

* 27-Bucketizer分箱

* 28-ElementWise与SQLTransform实践

* 29-特征转换VectorAssemble

* 30-特征转换-QuantileDiscretizer

* 31-特征选择VectorSlicer

* 32-RFormula和卡方验证选择特征方法

* 33-卡方验证案例补充

* 36-案例实践2-Iris统计初步实践

* 37-案例实践2-Iris的rdd相关系数实践

* 38-案例实践2-iris的Dataframe数据统计

* 39-案例实践2-iris的SParkMllib特征工程实践

* SparkMllib决策树算法基础与实战/

* 1-了解什么是决策树

* 2.基于规则建树

* 3-信息熵的理解

* 4-ID3算法步骤详解

* 5-ID3算法举例和C4.5算法改进

* 6-决策树的剪枝方式

* 7-电商购买数据集ID3算法对比实践

* 8-Cart树的回归树原理理解

* 9-Cart树算法案例讲解

* 10-Cart分类树原理及Gini系数

* 11-Cart分类树的案例

* 12-SparkMllib实战libsvm数据建模

* 13-SparkMl实战libsvm数据全流程讲解实战

* 14-SparkMllib相亲数据建模分析

* 15-SparkMllib实战iris鸢尾花实战

* 16-SparkMl实战Iris特征工程及建模实战1

* SparkMllib高级模块与线性回归基础及实战/

* 1-SparkMllib的pipeline简介

* 2-Dataframe组件

* 3-Pipeline原理

* 4-通过set方法和ParamMap方法赋值超参数的选项

* 5-通过pipeline完成案例的代码编写

* 6-如何对模型选择与优化

* 7-超参数的网格搜索

* 8-简单交叉验证及模型选择

* 9-简单线性回归

* 10-最小二乘法解决简单线性回归原理

* 11-多元线性回归简介

* 12-最小二乘推导补充(补充)

* 13-线性回归的变体及各适用场景

* 14-SparkMl实战脂肪数据集的案例

* 15-SparkMl实战运输时间的预测分析

* 16-SparkMl实战libsvm数据的形式

* 16-SparkMllib基于RDD结构实战线性回归实例

* 17-Sparkml完成房价预测分析实战

* SparkMllib聚类算法基础与实战/

* 1-什么是聚类

* 2-关于多种距离的度量简介

* 3-聚类算法核心思想

* 4-KMeans的举例

* 5-Kmens算法性能指标分析

* 6-KMeans特点及注意事项

* 7-SparkMLIB实战KMEans算法

* 8-SparkMLLIB实现药品数据得简单聚类

* 9-SparkMl实现基本数据的聚类分析实战

* 10-SparkMl和parkSql实现经纬度数据聚类分析实战

* 11-k-medoids了解

* 12-其他聚类思路-层次聚类方法

* 13-基于密度的聚类DBSCAN

* 14-GMM模型原理

* 15-聚类算法的总结：

* 16-SparkMllib实现对于层次聚类的分析

* 17-SparkMllib完成对于GMM高斯混合模型实践分析

* 18-SparkLDA实现了主题的提取实战

* 19-SparkML实现IRis鸢尾花的聚类算法实战

* SparkGraphX理论基础与实战/

* 1-图基本概念以及图计算应用

* 2-SparkGraphX简介

* 3-SparkGraphX图算法

* 4-SparkGraphX抽象是RDPG---弹性分布式属性图

* 5-SparkGraphX架构层面及存储方式简介

* 6-SparkGraphX定义顶点操作

* 7-SparkGraphX构件图及查询的操作

* 8-图的基本数据结构

* 9-图的类型和图的存储方式简介

* 10-构建图的方法原理及源码了解创建过程

* 11-构建图的操作代码

* 12-社交网络数据的创建部分代码实战

* 13-图的基本信息--顶点、边、入度、出度

* 14-图的转换操作：mapVertices、mapEdges、mapTriplet

* 15-图的结构操作：reverse、subgraph、mask、groupGraph

* 16-图的关联操作

* 17-图的聚合以及图的操作API总结

* SparkGraphX与SparkMllib综合实战/

* 1-PageRank算法的基本假设和理解

* 2-PageRank算法思想

* 3-PageRank算法深入

* 4-SparkGraphX通过社交网络数据完成重要节点的选择

* 5-通过wiki数据达到网页重要性的pagerank度量

* 6-通过PageRank算法得到网页排名的重要性

* 7-广度优先遍历

* 8-SparkGrphX实现最短路径

* 9-连通图和强联通图

* 10-SparkGraphx实战三角关系网络发现

* 11-SVD++原理

* 12-SVD++实战推荐算法预测

* SparkGraphX基础实战/

* 001-了解最短路径算法

* 002-SparkGraphX实战-1

* 003-SparkGraphX实战-2

* 004-SparkGraphX社交网络案例实践

* 第二章用户画像项目-项目介绍/

* 项目介绍/

* 001-项目介绍-课程体系

* 002-项目介绍-什么是用户画像-应用场景-精细化运营

* 003-项目介绍-什么是用户画像-应用场景-推荐系统

* 004-项目介绍-什么是用户画像-概念

* 计算框架选型/

* 005-项目介绍-计算框架选型-离线数仓

* 006-项目介绍-计算框架选型-实时数仓

* 007-项目介绍-计算框架选型-离线画像

* 008-项目介绍-计算框架选型-实时画像

* 项目结构/

* 009-项目介绍-项目结构-项目功能

* 010-项目介绍-项目结构-项目架构

* 011-项目介绍-项目结构-项目情况

* 第三章用户画像项目-集群搭建/

* 集群介绍/

* 012_集群搭建_设计集群_资源预估

* 013_集群搭建_设计集群_完成

* 014_集群搭建_部署和管理集群的工具_介绍

* 015_集群搭建_部署和管理集群的工具_三种部署方式

* 自动化部署/

* 016_集群搭建_自动创建虚拟机_介绍Vagrant

* 017_集群搭建_自动创建虚拟机_初体验

* 018_集群搭建_自动创建虚拟机_Provision

* 019_集群搭建_自动创建虚拟机_创建集群

* 020_集群搭建_自动化部署_Ansible介绍

* 021_集群搭建_自动化部署_脚本结构

* 022_集群搭建_自动化部署_部署完成

* 第四章用户画像项目-数据抽取/

* 数据抽取介绍/

* 023_数据抽取_BulkLoad介绍

* 024_数据抽取_ToHive

* 025_数据抽取_ToHBase_工程创建

* 026_数据抽取_ToHBase_思路梳理

* 数据抽取实现/

* 027_数据抽取_ToHBase_SaveAsHFile

* 028_数据抽取_ToHBase_BulkLoad

* 029_数据抽取_ToHBase_任务执行

* 第五章用户画像项目-调度平台介绍/

* 调度平台/

* 030_调度平台_项目结构

* 031_调度平台_Oozie介绍

* 032_调度平台_Oozie组件

* 033_调度平台_访问流程

* 034_调度平台_调用Oozie的流程

* 第六章用户画像项目-匹配型标签/

* SHC 介绍/

* 035_匹配型标签_SHC读取

* 036_匹配型标签_SHC写入

* 037_匹配型标签_SHC使用JSON的Catalog

* 性别标签/

* 038_匹配型标签_性别标签_标签处理流程

* 039_匹配型标签_性别标签_读取四级标签数据

* 040_匹配型标签_性别标签_标签转对象和读取五级标签

* 041_匹配型标签_性别标签_读取元数据

* 042_匹配型标签_性别标签_元数据分类

* 043_匹配型标签_性别标签_源数据读取

* 044_匹配型标签_性别标签_标签匹配

* 045_匹配型标签_性别标签_存入画像表

* 046_匹配型标签_优化点_SHC工具类

* 职业标签/

* 047_匹配型标签_职业标签_上线流程

* 048_匹配型标签_职业标签_读取标签

* 049_匹配型标签_职业标签_读取数据源

* 050_匹配型标签_职业标签_计算保存

* 其它标签/

* 051_匹配型标签_基类抽取_完成

* 052_匹配型标签_国籍标签

* 053_匹配型标签_政治面貌

* 054_匹配型标签_调度执行

* 第七章用户画像项目-存储选型/

* MySQL/

* 055-项目介绍-存储选型-访问特点

* 056-项目介绍-存储选型-MySQL-查找二叉树

* 057-项目介绍-存储选型-MySQL-B树

* 058-项目介绍-存储选型-MySQL-B树-插入

* 059-项目介绍-存储选型-MySQL-B+树-问题1(950剪辑)

* 060-项目介绍-存储选型-MySQL-B+树-问题2

* 061-项目介绍-存储选型-MySQL-总结

* Hbase/

* 062-项目介绍-存储选型-HBase-LSM

* 063-项目介绍-存储选型-HBase-特点-回顾

* 064-项目介绍-存储选型-HBase-特点-优化1

* 065-项目介绍-存储选型-HBase-特点-优化2

* 066-项目介绍-存储选型-HBase-总结

* 067-项目介绍-存储选型-总结

* 第八章用户画像项目-统计型标签/

* 统计型标签/

* 068_统计型标签_年龄段

* 069_统计型标签_支付方式_统计数量

* 070_统计型标签_支付方式_分组的迷思

* 071_统计型标签_支付方式_完成

* 072_统计型标签_支付方式_最近

* 073_统计型标签_消费周期

* 第九章用户画像项目-机器学习入门/

* 机器学习介绍/

* 074_机器学习入门_什么是学习型算法

* 075_机器学习入门_概念

* Zeppelin/

* 076_机器学习入门_Zeppelin_安装

* 077_机器学习入门_Zeppelin_介绍

* 078_机器学习入门_Zeppelin_基础使用

* 房价案例/

* 079_机器学习入门_房价预测_绘制价格直方图

* 080_机器学习入门_房价预测_绘制特征关系

* 081_机器学习入门_房价预测_算法选择

* 082_机器学习入门_房价预测_空值处理

* 083_机器学习入门_房价预测_顺序特征编码

* 084_机器学习入门_房价预测_组合特征

* 085_机器学习入门_房价预测_特征编码_查看特征

* 086_机器学习入门_房价预测_特征编码_Indexer

* 087_机器学习入门_房价预测_OneHot

* 088_机器学习入门_房价预测_生成特征列

* 089_机器学习入门_房价预测_模型建立

* 第十章用户画像项目-挖掘型标签/

* RFM/

* 090_挖掘型标签_用户价值模型_需求

* 091_挖掘型标签_用户价值模型_RFM

* 092_挖掘型标签_用户价值模型_实现步骤

* 093_挖掘型标签_用户价值模型_求得RFM

* 094_挖掘型标签_用户价值模型_打分

* 095_挖掘型标签_用户价值模型_训练

* 095_挖掘型标签_用户价值模型_预测

* 096_挖掘型标签_用户价值模型_生成标签

* 097_挖掘型标签_用户活跃度模型

* PSM/

* 098_挖掘型标签_价格敏感度_PSM求值思路

* 099_挖掘型标签_价格敏感度_PSM打分

* 100_挖掘型标签_价格敏感度_肘部法则

* 购物性别/

* 101_挖掘型标签_购物性别_决策树

* 102_挖掘型标签_购物性别_创建多源基类

* 103_挖掘型标签_购物性别_数据处理

* 104_挖掘型标签_购物性别_训练预测

* 105_挖掘型标签_购物性别_完结

* 阶段四中级进修课-千亿级电商数仓项目-离线部分/

* 第一章千亿级电商数仓项目-离线部分-数仓概述及kettle框架学习/

* 项目概述/

* 01-课程目标

* 02-电商行业与电商系统介绍

* 03-数仓项目整体技术架构介绍

* 04-数仓项目架构-kylin补充

* 05-数仓具体技术介绍与项目环境介绍

* kettle安装及使用/

* 06-kettle的介绍与安装

* 07-kettle的入门案例

* 08-kettle输入组件之json输入与表输入

* 09-kettle输入组件之生成记录组件

* 10-kettle输出组件之文本文件输出

* 11-kettle输出组件之表输出插入更新删除组件

* kettle整合大数据框架/

* 12-kettle整合hadoop

* 13-kettle-hadoopfileinput组件

* 14-kettle-hadoopfileoutput组件

* 15-kettle整合hive

* 16-kettle-hive表输入组件

* 17-kettle-hive表输出组件

* 18-kettle执行hivesql组件

* kettle转换组件/

* 19-kettle转换组件之值映射增加序列字段选择

* kettle流程控件/

* 20-kettle流程控件-switchcase组件

* 21-kettle流程控件-过滤记录组件

* kettle连接组件/

* 22-kettle连接组件

* kettle作业及linux部署/

* 23-kettle的作业介绍

* 24-kettle-转换命名参数

* 25-linux部署kettle

* 26-pansh执行转换任务

* 27-kitchensh执行转换任务

* 第二章千亿级电商数仓项目-离线部分-数仓分层设计及业务数据采集/

* 数仓理论/

* 01-课程目标与课程内容介绍

* 02-数仓维度建模设计

* 03-数仓为什么分层

* 04-数仓分层思想和作用

* 05-数仓中表的分类和同步策略

* 06-数仓中表字段介绍以及表关系梳理

* 项目环境初始化/

* 07-项目环境初始化

* 缓慢变化维/

* 08-缓慢变化维问题以及常见解决方案

* 09-商品案例-每日全量采集方案

* 10-每日全量案例实现

* 拉链表技术/

* 11-拉链表技术介绍

* 12-拉链表技术实现-第一次导入数据到拉链表

* 13-拉链表技术实现--历史数据更新

* 14-拉链表技术实现-新增数据插入以及合并

* 数据采集/

* 15-商品维度数据第一次全量导入拉链表

* 16-商品维度数据第二次增量导入

* 17-周期性事实表同步操作

* 18-其余表增量抽取

* 第三章千亿级数仓-离线部分-订单业务指标实现/

* 订单时间维度指标实现/

* 01-今日课程内容和课程目标

* 02-订单时间维度指标需求分析

* 03-使用kettle生成日期维度数据

* 04-订单指标时间维度分析--每个季度

* 05-订单指标时间维度-每个月-每个周-休息日节假日工作日

* 订单指标区域维度商品分类维度实现/

* 06-订单指标区域维度和分类维度需求分析

* 07-店铺区域维度数据拉宽

* 08-商品分类表维度数据拉宽

* 09-事实表维度数据拉宽操作

* 10-全国无商品分类维度指标统计

* 11-全国一级商品分类维度指标开发

* 12-大区二级商品分类维度指标统计

* 用户订单行为指标/

* 13-用户订单行为指标需求分析

* 14-ETL处理-订单时间标志宽表处理

* 15-用户订单行为指标开发一

* 16-指标开发第二部分

* 17-指标开发第四部分

* 18-创建ads层指标表存储数据

* 第四章千亿级电商数仓项目-离线部分-日志数据采集及ETL处理/

* 数据采集-flume0/

* 01-今日课程目标与课程内容介绍

* 02-网站流量日志获取方式介绍

* 03-埋点js自定义采集原理分析

* 04-网站流量日志-flume采集

* 05-flume采集核心配置介绍

* 06-flume采集程序启动验证

* 07-flume采集输出hdfs目录分析

* 08-flume自定义拦截器代码编写- (1)

* 08-flume自定义拦截器代码编写- (2)

* ETL处理-点击流模型/

* 10-ETL处理pageview-visit模型介绍及实现思路

* 11-ETL处理-创建hive表接收ETL处理后数据

* 12-ETL处理代码-普通版本-数据清洗过滤实现

* 13-ETL处理代码-普通版本-pageview模型实现

* 14-ETL处理代码-visit模型以及程序运行验证

* 15-ETL处理代码-数据倾斜解决思路

* 16-ETL处理代码-数据倾斜版本-rangepartitioner均匀分区实现

* 17-ETL处理代码-数据倾斜版本-第一次生成sessionid

* 18-ETL处理代码-数据倾斜版本-使用累加器修复分区边界

* 19-ETL处理代码-数据倾斜版本-边界修复验证

* 20-ETL处理代码-数据倾斜版本-最终实现以及验证

* 第五章千亿级电商数仓项目-离线部分-流量指标开发/

* 流量指标开发/

* 01-今日课程目标与课程内容介绍

* 02-生成明细表数据

* 03-流量分析常见指标-基础级-复合级指标

* 04-常见流量分析模型

* 05-基础级指标统计

* 06-基础级指标多维统计分析

* 07-复合指标统计

* 08-分组topn问题-开窗函数

* 09-受访分析

* 10-访客分析

* 11-访客visit分析

* 12-数据导出

* 工作流调度/

* 13-工作流调度和实现方式

* 14-数据导出脚本编写-第一部分

* 15-数据导出脚本编写-第二部分

* 16-增量抽取数据脚本编写

* 17-flume启动停止脚本与数据预处理脚本

* 18-ETL以及指标计算脚本编写

* 19-azkaban定时调度job编写

* 第六章千亿级电商数仓项目-离线部分-Apache kylin/

* kylin介绍与入门/

* 01今日课程目标与课程内容介绍

* 02-kylin简介以及应用场景

* 03-kylin的优势以及数据流程图

* 04-kylin的安装

* 05-kylin入门案例

* 06-kylin入门案例结果验证

* 07-kylin入门案例-多张表

* 08-kylin入门案例-一张事实表多张维度表

* kylin工作原理/

* 09-kylin维度和度量以及cube与cuboid

* 10-kylin工作原理-技术架构

* kylin增量构建与碎片管理/

* 11-kylin全量构建与增量构建介绍

* 12-增量构建model准备

* 13-kylin中cube增量构建演示

* 14-kylin增量构建restapi方式

* 15-kylin碎片管理-手动合并

* 16-kylin碎片管理-手动删除segment

* 17-kylin碎片管理自动合并策略及案例

* 18-kylin自动保留策略以及案例

* 19-jdbc方式查询kylin

* 第七章千亿级电商数仓项目-离线部分-Apache superset/

* kylin优化/

* 01-kylincube优化-确定cuboid数量与cubesize

* 02-cube优化-衍生维度

* 03-cube优化-聚合组

* 04-cube调优案例

* 数仓指标-kylin实现/

* 05-kylin接入数仓开发

* Apache superset/

* 06-apache superset简介

* 07-superset的安装

* 08-superset入门案例

* 09-superset菜单功能介绍

* 10-superset订单案例实战

* 11-superset dashboard实战

* 12-superset的权限控制

* 13-superset业务开发

* 阶段五中级进修课-千亿级电商数仓项目-实时部分/

* 第一章千亿级电商数仓项目-实时部分-项目介绍及环境搭建/

* 实时计算应用场景及技术选型/

* 01.【实时数仓-day01】课程目标

* 02.【实时数仓-day01】实时计算应用场景和技术选型

* 03.【实时数仓-day01】项目实施环境

* 项目背景及架构/

* 04.【实时数仓-day01】需求分析介绍

* 05.【实时数仓-day01】常见的软件工程模型

* 06.【实时数仓-day01】实施方案

* 07.【实时数仓-day01】实时数仓的整体架构

* canal的介绍及安装部署/

* 08.【实时数仓-day01】canal的介绍

* 09.【实时数仓-day01】canal的安装部署

* 10.【实时数仓-day01】canal的客户端代码编写

* 11.【实时数仓-day01】canal的客户端测试

* protobuf介绍及使用/

* 12.【实时数仓-day01】potobuf数据格式化的引入

* 13.【实时数仓-day01】protobuf的介绍及环境初始化

* 14.【实时数仓-day01】protobuf的使用

* 15.【实时数仓-day01】protobuf整合canalClient

* canal架构及原理/

* 16.【实时数仓-day01】mysql的主备原理

* 17.【实时数仓-day01】canal的工作原理及架构

* 18.【实数数仓-day01】canal的工作原理-客户端和服务端交互协议以及组件介绍

* 19.【实时数仓-day01】canal的工作原理EventStore

* 20.【实时数仓-day01】canal的工作原理Eventparser

* 第二章千亿级电商数仓项目-实时部分-canal客户端开发/

* canal的高可用部署/

* 01.【实时数仓-day02】课程目标

* 02.【实时数仓-day02】canal服务端的ha设置及演示

* 03.【实时数仓-day02】canal客户端的ha配置

* canal客户端模块开发/

* 04.【实时数仓-day02】项目开发-环境初始化

* 05.【实时数仓-day02】项目开发-canal客户端-环境初始化

* 06.【实时数仓-day02】项目开发-canal客户端-核心代码编写

* 07.【实时数仓-day02】项目开发-canal客户端-自定义序列化

* 08.【实时数仓-day02】项目开发-canal客户端-binlog的protobuf序列化实现

* 09.【实时数仓-day02】项目开发-canal客户端-将binlog日志使用protobuf序列化后写入kafka集群

* 实时ETL模块开发环境初始化/

* 10.【实时数仓-day02】项目开发-实时ETL-环境初始化

* 11.【实时数仓-day02】项目开发-实时ETL-Flink流式计算程序的初始化

* 12.【实时数仓-day02】项目开发-实时ETL-根据数据来源封装ETL基类

* 第三章千亿级电商数仓项目-实时部分-维度数据处理及logpasing框架使用/

* 实时ETL模块维度数据处理/

* 01.【实时数仓-day03】课程目标

* 02.【实时数仓-day03】实时ETL-Flink程序解析Kafka中的ProtoBuf

* 03.【实时数仓-day03】实时ETL-维度数据的样例类定义

* 04.【实时数仓-day03】实时ETL-维度数据的全量装载

* 05.【实时数仓-day03】实时ETL-维度数据的增量更新

* 实时ETL模块-logparsing框架使用/

* 06.【实时数仓-day03】实时ETL-点击流日志ETL引入logparsing框架介绍

* 07.【实时数仓-day03】实时ETL-点击流日志ETLlogparsing官方案例介绍

* 08.【实时数仓-day03】实时ETL-点击流日志ETLlogparsing入门案例

* 09.【实时数仓-day03】实时ETL-点击流日志ETLlogparsing框架应用到点击流日志样例类中

* 第四章千亿级电商数仓项目-实时部分-点击流及订单业务数据开发/

* 实时ETL模块-点击流数据开发/

* 01.【实时数仓-day04】课程目标

* 02.【实时数仓-day04】实时ETL-点击流ETL-定义拉宽后的点击流对象样例类

* 03.【实时数仓-day04】实时ETL-点击流ETL-实时拉宽实现方案

* 04.【实时数仓-day04】实时ETL-点击流ETL-点击流日志转换成对象

* 05.【实时数仓-day04】实时ETL-点击流ETL-将点击流对象转换成拉宽后的点击流对象

* 06.【实时数仓-day04】实时ETL-点击流ETL-将拉宽后的点击流对象写入到kafka集群

* 07.【实时数仓-day04】实时ETL-点击流ETL-阶段总结

* 实时ETL模块-订单明细数据开发/

* 08.【实时数仓-day04】实时ETL-订单明细ETL-订单明细实时ETL需求分析

* 08.【实时数仓-day04】实时ETL-订单ETL-订单实时ETL业务开发

* 09.【实时数仓-day04】实时ETL-订单明细ETL-订单明细样例类定义

* 10.【实时数仓-day04】实时ETL-订单明细ETL-订单明细异步请求关联维度表数据

* 11.【实时数仓-day04】实时ETL-订单明细ETL-异步IO的原理

* 12.【实时数仓-day04】实时ETL-订单明细ETL-将订单明细数据写入到kafka集群

* 13.【实时数仓-day04】实时ETL-订单明细ETL-订单明细实时ETL到hbase并测试

* 14.【实时数仓-day04】实时ETL-商品数据ETL-商品表数据实时拉宽写入到kafka集群

* 实时ETL模块-商品购物车评论数据开发/

* 15.【实时数仓-day04】实时ETL-购物车数据ETL-购物车数据实时拉宽写入到kafka集群

* 16.【实时数仓-day04】实时ETL-评论数据ETL-评论数据实时拉宽写入到kafka集群

* 17.【实时数仓-day04】实时ETL-导入数据模拟生成器

* 第五章千亿级电商数仓项目-实时部分-Phoenix及Druid部署/

* Phoenix的安装部署及使用/

* 01.【实时数仓-day05】课程目标

* 02.【实时数仓-day05】Phoenix的介绍

* 03.【实时数仓-day05】Phoenix的安装部署

* 04.【实时数仓-day05】Phoenix的入门案例

* 05.【实时数仓-day05】Phoenix创建与Hbase的映射

* 06.【实时数仓-day05】使用Phoenix构建二级索引加快查询效率

* 07.【实时数仓-day05】Phoenix-使用订单明细创建Phoenix映射表并jdbc连接Phoenix

* Flink的程序优化/

* 08.【实时数仓-day05】Flink的程序优化

* Druid安装部署及使用/

* 09.【实时数仓-day05】Druid的介绍

* 10.【实时数仓-day05】Druid的安装和部署

* 11.【实时数仓-day05】Druid-Druid的入门案例

* 12.【实时数仓-day05】Druid-Druid的摄取本地文件案例

* 13.【实时数仓-day05】Druid-Druid的摄取HDFS文件案例

* 14.【实时数仓-day05】Druid-Druid的摄取Kafka流式数据案例

* 15.【实时数仓-day05】Druid-Druid的摄取配置文件格式说明

* 16.【实时数仓-day05】Druid-Druid的数据查询

* 第六章千亿级电商数仓项目-实时部分-Druid进行OLAP分析及superset可视化/

* 使用Druid进行OLAP分析/

* 01.【实时数仓-day06】课程目标

* 02.【实时数仓-day06】Druid-jdbc操作Druid

* 03.【实时数仓-day06】Druid-点击流日志指标分析

* 04.【实时数仓-day06】Druid-订单数指标分析

* 数仓可视化模块介绍/

* 05.【实时数仓-day06】导入数据可视化项目模块

* Druid的架构及原理/

* 06.【实时数仓-day06】Druid的架构和原理-索引服务介绍

* 07.【实时数仓-day06】Druid的架构和原理-存储服务和查询服务节点介绍

* 08.【实时数仓-day06】Druid的架构和原理-Druid数据存储

* Superset安装部署及使用/

* 09.【实时数仓-day06】superset的介绍

* 10.【实时数仓-day06】superset的安装部署

* 11.【实时数仓-day06】superset的入门案例

* 12.【实时数仓-day06】Mysql订单分析案例

* 13.【实时数仓-day06】superset的权限介绍

* 14.【实时数仓-day06】superset的自定义角色

本篇 ¥29.00 · 开通 VIP 更划算

查看价格与购买