复杂数据清洗转换
* 01 spark项目基础/
* 01 2.分布式集群下安装hive.mp4 39:21
* 02 3.连接yarn.mp4 06:16
* 03 4.配置hive的metastore.mp4 27:09
* 04 5.配置spark的yarn模式.mp4 14:52
* 05 6.HiveSQL执行的方式.mp4 17:28
* 06 7.spark-submit提交作业的参数.mp4 18:02
* 07 8.数仓生成模拟数据.mp4 42:41
* 08 9.数据导入hive的ODS层表.mp4 24:58
* 09 10.hive的文件存储格式.mp4 23:45
* 10 11.总结.mp4 04:03
* 02 数据清洗/
* 01 1.yarn提交作业的流程和队列配置.mp4 42:46
* 02 2.导入数据到ODS.sh.mp4 34:20
* 03 3.创建spark项目.mp4 42:51
* 04 4.数据清洗.mp4 34:45
* 05 5.spark项目打包在服务器运行.mp4 28:13
* 06 6.编写SparkUtils工具类.mp4 45:05
* 07 7.总结.mp4 08:04
* 03 大数据效率优化/
* 01 1.spark-submit提交作业的jars的参数.mp4 13:24
* 02 2.spark-submit作业提交报错.mp4 07:14
* 03 3.spark项目的打包问题总结.mp4 18:27
* 04 4.session会话分割需求描述.mp4 28:59
* 05 5.session会话分割SQL语句.mp4 19:57
* 06 6.完成session会话分割需求.mp4 27:25
* 07 7.逆地理位置解析.mp4 08:53
* 08 8.逆地理位置解析.mp4 10:14
* 09 9.代码请求地理位置.mp4 14:54
* 10 10.完成地理位置解析.mp4 01:06:58
* 04 GIS大数据/
* 01 1.GeoHash编码.mp4 44:35
* 02 2.自连接并且计算geohash写入hive表.mp4 01:28:49
* 03 3.GeoHash解决省市区位置.mp4 22:30
* 04 1.利用计算geohash完成地理位置解析.mp4 22:24
* 05 2.分析问题.mp4 41:48
* 06 3.利用累加器收集数据.mp4 41:24
* 07 4.总结.mp4 19:55
* 08 5.启动ds.mp4 21:31
* 09 6.在ds上运行spark作业.mp4 49:12
* 10 7.全局参数和定时执行.mp4 23:03
* 05 flume大数据项目/
* 01 1.maven依赖下载不了.mp4 25:37
* 02 2.flume采集数据零点漂移问题.mp4 11:10
* 03 3.自定义拦截器解决flume零点飘移问题.mp4 16:59
* 04 4.需求一_统计最近一个月,有过连续5天登录的用户数.mp4 23:47
* 05 5.需求二_需求三_需求四.mp4 29:51
* 06 6.需求五.mp4 14:26
* 07 7.完善需求五.mp4 10:20
* 06 大数据连续区间案例/
* 01 1.连续活跃区间表.mp4 47:20
* 02 2.基于连续活跃区间表统计需求.mp4 37:23
* 03 3.分析连续活跃区间表数据来源.mp4 31:16
* 04 4.连续活跃区间查询SQL分析.mp4 45:46
* 05 5.连续活跃区间SQL实现.mp4 36:36
* 06 6.总结.mp4 11:14
* 07 多维报表项目案例/
* 01 1.多维报表流量分析.mp4 31:22
* 02 1.面试问题.mp4 35:27
* 03 2.构建session维度表.mp4 40:58
* 04 2.面试题-2.mp4 36:12
* 05 3.面试题-3.mp4 26:54
* 06 3.像session维表添加数据.mp4 20:46
* 07 4.多维查询.mp4 22:45
* 08 4.总结.mp4 12:00
* 09 5.总结.mp4 38:08
* 08 多维流量宽表案例/
* 01 1.面试题-1.mp4 28:25
* 02 2.面试题-2.mp4 36:54
* 03 3.多维流量宽表以及导入数据.mp4 33:12
* 04 4.多维分析.mp4 12:09
* 05 5.流量多维分析代码开发.mp4 21:13
* 06 6.漏洞分析主题.mp4 45:38
* 07 7.总结.mp4 25:59





![[衡天云]爆款云服务器 低至12元/月](/hty.png)