打通大数据领域最吃香的离线处理核心技能及生态,成为拥有真正实力前沿人才
* 第1章 大厂技术首选高薪必备:揭开Spark神秘面纱/
* 1-1 每位大数据开发者都需要了解的硬核技能.mp4 09:48
* 1-2 本章概览.mp4 01:38
* 1-3 Spark产生背景.mp4 10:02
* 1-4 Spark是什么.mp4 11:38
* 1-5 【重要】Spark能为我们带来什么.mp4 08:42
* 1-6 自己语言总结Spark.mp4 04:48
* 1-7 【重要】Spark版本选择依据.mp4 11:06
* 1-8 Spark与Hadoop多角度对比.mp4 13:08
* 1-9 作业题
* 1-10 面试题
* 1-11 课外拓展
* 第2章 工欲善其事必先利其器:大数据框架环境部署/
* 2-1 本章概览.mp4 01:51
* 2-2 【重要】服务器选择注意事项.mp4 02:33
* 2-3 客户端操作注意事项.mp4 09:08
* 2-4 服务器目录规划.mp4 02:32
* 2-5 JDK部署.mp4 08:08
* 2-6 Scala部署.mp4 03:01
* 2-7 【作业】MySQL部署.mp4 03:38
* 2-8 HDFS部署及测试.mp4 19:36
* 2-9 YARN部署及测试.mp4 07:59
* 2-10 Hive部署及测试.mp4 15:38
* 2-11 Spark部署及测试.mp4 11:51
* 2-12 【重要】基于IDEA&Maven构建本地开发环境.mp4 11:55
* 2-13 作业题
* 第3章 手把手撸个RDD实战:加强基础为Spark预热/
* 3-1 本章概览.mp4 03:24
* 3-2 快速认识Java中的Iterator.mp4 03:45
* 3-3 自定义Java Iterator.mp4 12:26
* 3-4 自定义Java Iterable.mp4 06:13
* 3-5 【重要】Scala中迭代器的使用.mp4 06:10
* 3-6 【重要】自定义迭代器读取MySQL中的数据.mp4 07:51
* 3-7 统一上下文类封装.mp4 07:15
* 3-8 Scala中迭代器的lazy特性.mp4 07:18
* 3-9 【重要】自定义RDD代码封装及实现.mp4 13:23
* 3-10 自定义RDD代码测试.mp4 07:28
* 3-11 作业题
* 3-12 面试题
* 第4章 轻松理解RDD核心本质:结合源码多维度解析/
* 4-1 本章概览.mp4 01:28
* 4-2 学习之前注意事项说明.mp4 07:26
* 4-3 【重要】从源码角度理解RDD是什么.mp4 15:53
* 4-4 【重要】从源码角度理解RDD的定义.mp4 05:27
* 4-5 【重要】从源码角度理解RDD的五大特性.mp4 21:07
* 4-6 RDD五大特性在源码中的体现.mp4 07:28
* 4-7 RDD五大特性图解总结.mp4 05:15
* 4-8 HadoopRDD源码解读.mp4 11:30
* 4-9 【作业】JdbcRDD源码分析.mp4 02:56
* 4-10 作业题
* 4-11 面试题
* 第5章 快速步入核心编程基础:RDD转换与动作编程/
* 5-1 本章概览.mp4 03:11
* 5-2 Spark编程核心入口类SparkContext使用注意事项.mp4 10:19
* 5-3 基于spark-shell脚本再谈SparkContext.mp4 11:46
* 5-4 RDD创建方式之集合.mp4 09:17
* 5-5 初遇并行度.mp4 09:56
* 5-6 自定义类型数据转成RDD.mp4 03:55
* 5-7 RDD创建方式之文件系统数据.mp4 11:17
* 5-8 【作业】拓展读取文件系统数据.mp4 02:20
* 5-9 RDD创建方式之MySQL中的表.mp4 10:47
* 5-10 RDD操作概述.mp4 05:42
* 5-11 transformation之map算子.mp4 13:48
* 5-12 transformation之flatmap算子.mp4 08:44
* 5-13 transformation之mapPartitions算子.mp4 08:50
* 5-14 transformation之filter算子.mp4 11:53
* 5-15 transformation之sample算子.mp4 02:14
* 5-16 transformation之glom算子.mp4 01:56
* 5-17 transformation之zip算子.mp4 05:31
* 5-18 从一个经典的面试题掌握算子底层的实现原理.mp4 06:58
* 5-19 transformation之mapValues算子.mp4 08:09
* 5-20 transformation之flatMapValues算子.mp4 07:50
* 5-21 transformation之keys&values算子.mp4 03:06
* 5-22 transformation之keyBy算子.mp4 03:22
* 5-23 transformation之reduceByKey算子.mp4 07:31
* 5-24 transformation之groupByKey算子.mp4 04:35
* 5-25 经典面试题之reduceByKey对比groupByKey.mp4 09:50
* 5-26 transformation之groupBy算子.mp4 07:37
* 5-27 transformation之sortBy算子.mp4 02:48
* 5-28 transformation之sortByKey算子.mp4 03:47
* 5-29 transformation之distinct算子.mp4 05:55
* 5-30 transformation之cogroup算子.mp4 11:40
* 5-31 transformation之join算子.mp4 11:23
* 5-32 transformation之交并差算子.mp4 05:40
* 5-33 action算子之collect.mp4 05:53
* 5-34 action算子之foreach.mp4 05:45
* 5-35 action算子之foreachPartition.mp4 07:35
* 5-36 action算子之取数相关.mp4 05:43
* 5-37 action算子之aggregate相关.mp4 18:11
* 5-38 action算子之fold&reduce.mp4 05:06
* 5-39 算子之countByKey&countByValue.mp4 06:10
* 5-40 算子之查看RDD的依赖关系.mp4 03:09
* 5-41 【拓展】Java语言开发Spark应用之map.mp4 14:06
* 5-42 【拓展】Java语言开发Spark应用之flatMap.mp4 04:50
* 5-43 【拓展】Java语言开发Spark应用之filter.mp4 01:36
* 5-44 【拓展】Java语言开发Spark应用之词频统计.mp4 05:42
* 5-45 作业题
* 5-46 面试题
* 第6章 智能物业运营系统第一篇:地理位置的解析实战/
* 6-1 本章概览.mp4 04:08
* 6-2 明确需求.mp4 05:55
* 6-3 架构拓展.mp4 09:38
* 6-4 省份维度统计功能开发.mp4 12:41
* 6-5 MySQL表及工具类准备.mp4 05:08
* 6-6 统计结果入表.mp4 06:14
* 6-7 统计结果入表迭代.mp4 02:40
* 6-8 【经典面试题】Spark中的闭包.mp4 08:49
* 6-9 【经典报错】Task not serializable-.mp4 06:57
* 6-10 使用RDD完成普通的Join操作.mp4 06:46
* 6-11 使用RDD完成广播变量的Join操作.mp4 08:52
* 6-12 使用广播变量迭代ip解析功能.mp4 02:10
* 6-13 【非常重要】使用累加器完成数据质量指标.mp4 07:15
* 6-14 累加器在使用过程中注意的坑.mp4 05:49
* 6-15 自定义Int类型累加器.mp4 07:23
* 6-16 自定义复杂类型累加器.mp4 12:01
* 6-17 可视化框架部署.mp4 10:21
* 6-18 可视化大屏制作.mp4 04:33
* 6-19 全流程打包到服务器上运行.mp4 07:14
* 6-20 【扩展】高德地图API的使用.mp4 05:28
* 6-21 作业题
* 6-22 面试题
* 第7章 深入理解核心必备进阶:分区器依赖缓存策略/
* 7-1 本章概览.mp4 02:54
* 7-2 分区数调整算子.mp4 13:45
* 7-3 Spark中分区器的定义.mp4 06:22
* 7-4 自定义分区器在Spark中的使用.mp4 08:45
* 7-5 【加强】分区数及分区器加强.mp4 16:40
* 7-6 RDD的Lineage特性.mp4 08:40
* 7-7 【重要】窄依赖&宽依赖的定义.mp4 11:04
* 7-8 【重要】图解依赖及stage切分.mp4 14:17
* 7-9 ShuffleDependency类定义的参数说明.mp4 02:55
* 7-10 初遇Spark的缓存.mp4 06:13
* 7-11 缓存策略的选择.mp4 06:18
* 7-12 【重要】不同缓存策略的测试.mp4 13:31
* 7-13 缓存清理.mp4 02:53
* 7-14 作业题
* 7-15 面试题
* 第8章 架构知其然知其所以然:术语&运行架构&on YARN/
* 8-1 本章概览.mp4 02:02
* 8-2 引入.mp4 03:37
* 8-3 【重要】核心术语之一.mp4 21:35
* 8-4 【重要】核心术语之二.mp4 17:56
* 8-5 核心术语总结.mp4 03:40
* 8-6 【补充】-DAG图.mp4 06:17
* 8-7 运行架构.mp4 06:58
* 8-8 YARN重要知识点.mp4 02:15
* 8-9 Spark on YARN概述.mp4 08:36
* 8-10 client模式测试.mp4 12:17
* 8-11 cluster模式测试.mp4 08:09
* 8-12 【重要】两种模式的区别-.mp4 07:36
* 8-13 【补充】多节点进程的分布.mp4 02:04
* 8-14 作业题
* 8-15 面试题
* 第9章 智能物业运营系统第二篇:大数据应用监控及告警/
* 9-1 本章概览.mp4 02:04
* 9-2 监控在工作中的重要性.mp4 12:03
* 9-3 Spark应用程序执行完毕后存在的问题.mp4 06:09
* 9-4 为什么要引入历史服务.mp4 16:29
* 9-5 HistoryServer部署.mp4 10:00
* 9-6 HistoryServer重要参数讲解.mp4 04:25
* 9-7 学习如何阅读源码.mp4 08:36
* 9-8 如何基于HistoryServer打造自己的监控系统.mp4 10:14
* 9-9 【重要】打造自己的Spark应用程序监控设计.mp4 08:35
* 9-10 邮件发送工具类开发.mp4 08:43
* 9-11 【重要】实现自定义监控监听器.mp4 13:16
* 9-12 【重要】是否告警开关控制.mp4 07:00
* 9-13 【拓展】其他监控系统.mp4 02:23
* 9-14 作业题
* 9-15 面试题
* 第10章 高手成长路线之学调优:RDD各种姿势的调优/
* 10-1 本章概览.mp4 02:51
* 10-2 调优展开的维度.mp4 03:46
* 10-3 调优之序列化.mp4 13:46
* 10-4 调优之算子的合理选择01.mp4 05:31
* 10-5 调优之算子的合理选择02.mp4 03:34
* 10-6 调优之算子的合理选择03.mp4 09:54
* 10-7 调优之算子的合理选择04.mp4 11:04
* 10-8 调优之算子的合理选择05.mp4 05:20
* 10-9 调优之数据本地性.mp4 11:08
* 10-10 case在spark-shell中的使用.mp4 06:00
* 10-11 dirname和if在spark-shell中的使用.mp4 06:27
* 10-12 spark相关脚本的依赖关系.mp4 07:56
* 10-13 Spark作业的资源影响问题.mp4 12:21
* 10-14 Spark内存管理宏观认知.mp4 16:01
* 10-15 Spark内存管理之SMM.mp4 08:34
* 10-16 Spark内存管理之UMM.mp4 11:35
* 10-17 Spark内存管理之UMM扩展.mp4 08:40
* 10-18 作业题
* 10-19 面试题
* 第11章 智能物业运营系统第三篇:业务数据采集及累计问题/
* 11-1 本章概览.mp4 03:06
* 11-2 数据采集框架介绍.mp4 04:57
* 11-3 DataX是什么.mp4 07:42
* 11-4 DataX工作原理.mp4 08:32
* 11-5 DataX运行流程.mp4 07:36
* 11-6 DataX快速入门.mp4 06:43
* 11-7 使用DataX完成MySQL2HDFS的操作.mp4 16:49
* 11-8 使用DataX完成MySQL2HDFS的操作续.mp4 07:03
* 11-9 使用DataX完成MySQL2HDFS分区的操作.mp4 05:02
* 11-10 数据关联Hive表.mp4 02:40
* 11-11 实战之需求描述.mp4 11:06
* 11-12 实战之数据流向分析.mp4 05:16
* 11-13 实战之加载数据到Hive表.mp4 11:13
* 11-14 实战之Hive自连接方式分拆实现.mp4 14:16
* 11-15 实战之Hive自连接方式完整实现及优化.mp4 08:26
* 11-16 实战之Hive窗口函数实现.mp4 03:29
* 11-17 实战之使用RDD算子实现.mp4 11:57
* 11-18 作业题
* 11-19 面试题
* 第12章 最热门的AI大模型入门:ChatGPT为工作插上翅膀/
* 12-1 本章概览.mp4 02:12
* 12-2 认识OpenAI这家公司.mp4 03:17
* 12-3 语言模型&大语言模型的趋势.mp4 03:58
* 12-4 NLP发展历程.mp4 07:13
* 12-5 国内大模型介绍.mp4 05:19
* 12-6 【重要】Open AI账号注册.mp4 07:57
* 12-7 OpenAI 接口测试.mp4 07:45
* 12-8 通过案例演示大模型工作原理.mp4 11:44
* 12-9 【重要】通过案例知晓大模型的使用场景.mp4 15:30
* 12-10 模型演化.mp4 05:21
* 12-11 OpenAI Mode详解.mp4 05:40
* 12-12 模型价格及Token.mp4 04:56
* 12-13 Prompt工程.mp4 12:53
* 12-14 【重要】Chat CompletionAPI及多轮对话的使用.mp4 05:12
* 12-15 【重要】使用ChatGPT助力日常开发的SQL编写.mp4 05:25
* 12-16 Open AI开发者大会发布的新功能.mp4 09:00
* 12-17 Open AI编程老版本.mp4 07:49
* 12-18 Open AI编程新版本.mp4 05:43
* 12-19 Assistants API 编程.mp4 13:25
* 第13章 纠正主观上的错误理解:Spark SQL能带来什么/
* 13-1 本章概览.mp4 02:52
* 13-2 为什么要使用SQL.mp4 07:59
* 13-3 官方对Spark SQL的定义.mp4 11:31
* 13-4 【拓展】数据源操作.mp4 03:45
* 13-5 【补充】SQL on Hadoop框架.mp4 06:14
* 13-6 【拓展】Spark SQL的愿景.mp4 09:50
* 13-7 核心概念.mp4 10:16
* 13-8 编程入口点SparkSession.mp4 08:32
* 13-9 spark-shell&spark-sql访问Hive中的表.mp4 05:25
* 13-10 thriftserver&beeline配合使用.mp4 06:07
* 13-11 通过JDBC代码方式访问数据.mp4 05:27
* 13-12 作业题
* 13-13 面试题
* 第14章 高效快速读写外部数据:Spark SQL外部数据源的使用/
* 14-1 本章概览.mp4 03:07
* 14-2 外部数据源的产生背景.mp4 07:09
* 14-3 csv数据源的读操作基本使用.mp4 12:49
* 14-4 csv数据源的读操作进阶使用.mp4 10:08
* 14-5 csv数据源的写操作.mp4 06:03
* 14-6 SaveMode的含义.mp4 06:48
* 14-7 json数据源的读操作基本使用.mp4 06:25
* 14-8 json数据源的读操作进阶使用.mp4 18:38
* 14-9 json数据源的读操作进阶使用.mp4 06:01
* 14-10 json数据源的写操作.mp4 04:22
* 14-11 text数据源的读操作使用.mp4 06:51
* 14-12 text数据源的写操作使用.mp4 06:25
* 14-13 Parquet数据源的读写操作.mp4 04:46
* 14-14 jdbc数据源的读操作使用.mp4 04:00
* 14-15 jdbc数据源的读操作配置化使用.mp4 03:24
* 14-16 jdbc数据源的写操作最佳实践.mp4 05:14
* 14-17 Hive数据源的读写操作最佳实践.mp4 11:11
* 14-18 使用SQL的方式使用外部数据源.mp4 06:55
* 14-19 外部数据源核心类.mp4 14:12
* 14-20 JDBC数据源实现源码分析.mp4 10:45
* 14-21 JDBC数据源实现源码Debug分析.mp4 07:34
* 14-22 作业题
* 14-23 面试题
* 第15章 快速步入核心编程进阶:DF&DS API编程/
* 15-1 本章概览.mp4 01:10
* 15-2 基本API编程.mp4 19:41
* 15-3 基本API编程之分组聚合函数.mp4 08:55
* 15-4 基本API编程之窗口函数.mp4 06:11
* 15-5 RDD与DF的转换操作之反射.mp4 09:59
* 15-6 RDD与DF的转换操作之编程.mp4 04:12
* 15-7 DS操作之RDD转成DS.mp4 06:18
* 15-8 DS操作之DF与DS的互操作.mp4 03:07
* 15-9 扩展之Java类型在API编程中的使用.mp4 02:59
* 15-10 RDD&DF&DS对比.mp4 09:42
* 15-11 自定义外部数据源实战之需求分析.mp4 04:33
* 15-12 自定义外部数据源实战之主体轮廓开发.mp4 06:20
* 15-13 自定义外部数据源实战之开发及测试.mp4 08:22
* 15-14 作业题
* 第16章 透过函数进行二次开发:UDF函数在Spark SQL中的使用/
* 16-1 本章概览.mp4 01:12
* 16-2 SQL on Hadoop框架中的函数说明.mp4 04:04
* 16-3 UDF函数在API中的使用.mp4 11:07
* 16-4 UDF函数在SQL中的使用.mp4 04:57
* 16-5 UDF函数在Spark SQL中使用的扩展.mp4 10:15
* 16-6 UDAF函数编程主体轮廓开发.mp4 11:47
* 16-7 UDAF函数功能实现及测试.mp4 15:17
* 16-8 UDAF函数新版实现.mp4 07:01
* 16-9 UDTF函数补充说明.mp4 00:42
* 16-10 作业题
* 16-11 面试题
* 第17章 透过使用知晓执行流程:Spark SQL核心执行流程/
* 17-1 课程目录.mp4 01:48
* 17-2 Catalog编程.mp4 11:01
* 17-3 学习源码的方法论.mp4 06:22
* 17-4 通过官方Slide回顾RDD及SparkSQL相关知识.mp4 06:37
* 17-5 通过官方Slide讲解Spark SQL框架的执行流程.mp4 15:58
* 17-6 通过终端运行方式理解Spark SQL框架的执行流程.mp4 08:15
* 17-7 通过代码运行方式理解Spark SQL框架的执行流程.mp4 06:35
* 17-8 新特性之动态分区裁剪引入.mp4 08:41
* 17-9 新特性之动态分区裁剪实现原理.mp4 07:24
* 17-10 新特性之AQE概述.mp4 04:37
* 17-11 新特性之AQE分区自动合并功能详解.mp4 13:20
* 17-12 新特性之AQEJoin策略调整功能详解.mp4 08:15
* 17-13 Spark SQL关于Hints的补充.mp4 01:46
* 17-14 作业题
* 17-15 面试题
* 第18章 数据开放服务解决方案:为大数据处理成果赋能/
* 18-1 课程目录.mp4 02:23
* 18-2 数据服务在大数据平台中的重要地位.mp4 09:57
* 18-3 DBAPI概述.mp4 07:58
* 18-4 DBAPI部署.mp4 10:20
* 18-5 数据源配置.mp4 02:34
* 18-6 API配置.mp4 06:01
* 18-7 客户端设置.mp4 03:59
* 18-8 系统设置及监控.mp4 03:42
* 18-9 作业及总结.mp4 04:55
* 18-10 作业题
* 第19章 智能调度系统解决方案:DS在生产上的使用/
* 19-1 课程目录.mp4 01:43
* 19-2 调度系统在大数据平台中的重要性.mp4 07:34
* 19-3 初识DS.mp4 06:29
* 19-4 核心名词解释.mp4 13:21
* 19-5 Standalone模式部署.mp4 08:04
* 19-6 工作流的定义及运行实操.mp4 10:25
* 19-7 工作流定时管理.mp4 03:43
* 19-8 数据源中心配置.mp4 02:06
* 19-9 任务类型之shell的使用.mp4 04:54
* 19-10 任务类型之SQL的使用.mp4 02:58
* 19-11 任务类型之HiveCli script的使用.mp4 02:53
* 19-12 任务类型之hivecli file的使用.mp4 02:58
* 19-13 任务类型之Spark3的使用.mp4 04:46
* 19-14 安全中心之租户用户队列.mp4 04:04
* 19-15 安全中心之Worker分组及环境.mp4 03:33
* 19-16 安全中心之告警.mp4 04:53
* 第20章 热门数据湖的技能拓展:基于Spark&Iceberg构建数据湖/
* 20-1 课程目录.mp4 00:41
* 20-2 Iceberg简介.mp4 09:37
* 20-3 Iceberg特性.mp4 13:19
* 20-4 整合Hive准备工作.mp4 04:20
* 20-5 整合Hive结合Catalog创建表详解.mp4 17:12
* 20-6 Iceberg整合Hive的DDL与DML详解.mp4 10:00
* 20-7 Iceberg存储结构.mp4 15:29
* 20-8 整合Spark查询元数据信息.mp4 04:56
* 20-9 整合Spark完成时间线查询及回滚操作.mp4 08:22
* 20-10 动手拓展.mp4 01:41
* 第21章 AI大模型使用进阶:整合SQL在大数据中的使用/
* 21-1 课程目录.mp4 04:13
* 21-2 LangChain概述.mp4 07:19
* 21-3 LangChain整合OpenAI和Tongyi模型.mp4 06:53
* 21-4 LangChain整合SQLDatabaseChain完成SQL的处理.mp4 11:10
* 21-5 pyspark-ai.mp4 09:20
* 第22章 高手成长路线之挖祖坟:Spark核心源码分析/
* 22-1 课程目录.mp4 04:35
* 22-2 核心概念回顾.mp4 08:49
* 22-3 从宏观角度理解作业的执行原理.mp4 13:41
* 22-4 foreach算子源码分析.mp4 07:44
* 22-5 补充两个Scheduler的初始化.mp4 06:37
* 22-6 DAGScheduler中的runJob方法详解.mp4 20:54
* 22-7 handleJobSubmitted方法实现源码分析.mp4 08:51
* 22-8 TaskScheduler的submitTask方法源码分析.mp4 10:49
* 22-9 task任务执行源码分析.mp4 05:24
* 22-10 通过日志输出来学习框架底层的执行流程.mp4 08:18
* 22-11 Spark作业执行流程图解.mp4 01:06
* 22-12 为什么会产生数据倾斜.mp4 07:11
* 22-13 如何定位导致数据倾斜的代码.mp4 10:44
* 22-14 数据倾斜解决方案一.mp4 04:00
* 22-15 数据倾斜解决方案二.mp4 02:19
* 22-16 数据倾斜解决方案三.mp4 04:31
* 22-17 数据倾斜解决方案四.mp4 05:12
* 22-18 数据倾斜解决方案五.mp4 03:28
* 22-19 数据倾斜解决方案六.mp4 09:49
* 第23章 智能物业运营系统第四篇:以企业级项目要求实战/
* 23-1 课程目录.mp4 01:28
* 23-2 项目背景描述.mp4 12:18
* 23-3 数据流分析.mp4 12:47
* 23-4 数据源表结构分析.mp4 06:40
* 23-5 停车收入统计结果入表.mp4 07:36
* 23-6 停车收入大屏展示.mp4 08:32
* 23-7 趋势分析统计结果入表.mp4 04:01
* 23-8 趋势分析大屏展示.mp4 00:53
* 23-9 放行及抬杠原因次数及占比统计结果入表.mp4 02:51
* 23-10 放行及抬杆原因次数及占比分析大屏展示.mp4 01:56
* 23-11 区域提杆率统计结果入表.mp4 03:11
* 23-12 区域提杆率大屏展示-.mp4 00:50
* 23-13 扩展.mp4 05:59
* 23-14 课程小结.mp4 05:54





![[衡天云]爆款云服务器 低至12元/月](/hty.png)