学习分布式内存计算引擎 Spark
* 01 课程答疑/
* 01 老汤大数据课程体系介绍.mp4 06:21
* 02 Spark环境的搭建(windows)/
* 01 本地运行Spark需要注意的事项
* 02 IntelliJ IDEA开发spark应用.mp4 10:32
* 03 spark源代码环境的搭建.mp4 06:01
* 04 Spark集群安装-虚拟机上Scala的安装.mp4 12:33
* 05 Spark集群环境的搭建.mp4 12:44
* 06 集群spark-submit提交应用.mp4 17:42
* 07 spark-shell说明.mp4 06:46
* 08 Spark的日志级别的设置.mp4 07:26
* 09 mysql的安装(后面会用到).mp4 08:13
* 10 Spark模块学习说明.mp4 03:18
* 03 正确理解Spark/
* 01 Spark是怎么进行分布式计算的?.mp4 14:37
* 02 数据重新分区概述.mp4 08:29
* 03 Spark分布式计算流程中的几个疑问点.mp4 11:17
* 04 从上面的疑问中导出RDD的概念.mp4 10:54
* 05 实践:RDD API简单使用一.mp4 16:16
* 06 实践:RDD API简单使用二.mp4 10:50
* 07 理解Spark分布式内存计算的含义.mp4 13:58
* 08 Spark Core组件解决的问题及其特点.mp4 10:52
* 09 Spark SQL组件解决的问题及其特点一.mp4 20:33
* 10 Spark SQL组件解决的问题及其特点二.mp4 10:34
* 11 Spark Streaming组件(了解即可).mp4 13:22
* 12 Spark Graphx组件(了解即可).mp4 17:23
* 13 Spark ml组件(了解即可).mp4 11:42
* 04 Spark核心编程模型之RDD API/
* 01 章节推荐的学习方法
* 02 导入spark-rdd项目报错解决方式
* 03 再次理解RDD概念.mp4 13:04
* 04 补充课.mp4 17:24
* 05 怎么样创建RDD(必须学习).mp4 12:40
* 06 parallelize和makeRDD的实现原理.mp4 13:12
* 07 RDD的依赖设计及其特点(必须学习的知识).mp4 16:41
* 08 HashPartitioner原理(必须学习).mp4 13:42
* 09 对RDD合理分区能提高性能(必须学习).mp4 17:16
* 10 RangePartitioner的原理(必须学习).mp4 18:52
* 11 Partitioner源码解析.mp4 15:52
* 12 实战:自定义Partitioner(必须学习).mp4 10:00
* 13 Hash对比Range Partitioner(必须学习).mp4 07:35
* 14 实战:coalesce使用场景(非常的重要).mp4 11:02
* 15 coalesce原理讲解.mp4 15:15
* 16 coalesce源码解析.mp4 18:31
* 17 单类型transformation api(必须学习).mp4 19:43
* 18 MapPartitionsRDD的原理代码详解.mp4 12:52
* 19 RDD的采样api(sample等)(了解即可).mp4 17:15
* 20 RDD分层采样api(了解即可).mp4 10:54
* 21 实践:RDD的pipe api的使用.mp4 17:41
* 22 RDD的pipe的原理深入讲解.mp4 15:04
* 23 单类型RDD的基本action api的讲解.mp4 20:05
* 24 combineBykey的七大参数的详解一(必须学习).mp4 18:33
* 25 combineBykey的七大参数的详解二(必须学习).mp4 14:57
* 26 ShuffleRDD的原理详解.mp4 17:00
* 27 基于combineByKey的api详解.mp4 17:11
* 28 实践:combineBykey实战以及使用过程中需要注意的点.mp4 19:18
* 29 reduceByKey和groupByKey的对比.mp4 08:25
* 30 cogroup api的感官认识(必须学习).mp4 10:23
* 31 通过原理图和源代码详解cogroup原理.mp4 17:05
* 32 join等api的原理实现.mp4 09:27
* 33 subtractByKey的原理(了解即可).mp4 10:33
* 34 sortedByKey原理(了解即可).mp4 14:40
* 35 count等计数api(了解即可).mp4 17:22
* 36 union的使用及其原理.mp4 13:28
* 37 intersection(了解即可).mp4 05:55
* 38 笛卡尔积(了解即可).mp4 07:34
* 39 zip的使用及其原理.mp4 13:54
* 40 RDD的缓存机制,即persist.mp4 13:14
* 41 checkpoint的作用和实现流程.mp4 13:11
* 42 checkpoint实现原理一.mp4 09:31
* 43 checkpoint实现原理二.mp4 10:26
* 44 broadcast的机制及其用法(必须学习).mp4 07:36
* 45 accumulator的使用及其自定义accumulator.mp4 10:23
* 46 spark支持的读写存储系统.mp4 15:17
* 47 HadoopRDD的原理和实现.mp4 09:34
* 48 spark支持的通用的文件格式.mp4 15:18
* 49 二进制文件的读写.mp4 09:48
* 50 spark sql读写parquet and avro文件.mp4 15:16
* 51 Spark Core测试试卷一
* 05 项目实战:会话切割/
* 01 Scala集合的foldLeft函数的使用说明
* 02 Scala 集合中的 Builder
* 03 会话切割含义.mp4 20:00
* 04 项目总体流程.mp4 04:31
* 05 项目最终输出的数据结构.mp4 11:46
* 06 maven项目搭建.mp4 11:26
* 07 原始日志的解析逻辑实现.mp4 06:12
* 08 加载数据.mp4 07:39
* 09 解析原始数据.mp4 06:30
* 10 使用kryo序列化机制.mp4 03:59
* 11 使用flatMap API.mp4 03:51
* 12 过滤掉非法类型的日志.mp4 04:55
* 13 函数体中通配符的说明.mp4 04:06
* 14 按照user进行分组处理.mp4 13:13
* 15 单个user的Logs按照时间升序排.mp4 07:21
* 16 会话切割逻辑实现.mp4 15:04
* 17 会话切割逻辑实现(续).mp4 06:10
* 18 生成会话.mp4 12:32
* 19 计算domainLabel字段.mp4 05:46
* 20 给会话的cookie打标签.mp4 09:21
* 21 保存RDD数据.mp4 10:37
* 22 输出代码重构.mp4 07:42
* 23 输出代码重构(续).mp4 17:11
* 24 会话切割实现逻辑重构.mp4 06:16
* 25 会话切割实现逻辑重构(续).mp4 11:12
* 26 debug本地Spark程序.mp4 11:51
* 27 参数的配置化.mp4 08:35
* 28 spark-submit简介.mp4 04:40
* 29 集群跑会话切割应用.mp4 15:50
* 30 给应用打印log.mp4 06:59
* 31 统计会话的个数.mp4 06:17
* 32 将所有依赖打成一个jar包.mp4 13:41
* 33 解决本地跑Spark程序报错.mp4 02:04
* 34 RDD开发练习(面试题)
* 06 Spark RDD topN问题(必须学习)/
* 01 准备数据.mp4 25:01
* 02 两次mapPartitions实现topN.mp4 28:23
* 03 数据结构PriorityQueue讲解.mp4 14:38
* 04 本地topN的实现.mp4 11:01
* 05 mapPartition加上PriorityQueue实现t.mp4 26:16
* 06 RDD的API-top来解决topN的问题.mp4 08:10
* 07 Java代码怎么写Spark应用.mp4 17:32
* 08 Spark分组topN问题.mp4 13:36
* 09 Spark解决数据倾斜问题.mp4 21:05
* 10 使用Spark RDD分析日志作业
* 11 面试题_Spark去重
* 07 怎样正确提交Spark应用/
* 01 课程内容.mp4 09:45
* 02 java命令启动JVM.mp4 16:16
* 03 java ProcessBuilder启动JVM.mp4 17:31
* 04 spark-submit感官认识.mp4 12:22
* 05 master和deploy-mode参数详解.mp4 17:25
* 06 正确的yarn-client模式.mp4 04:50
* 07 --conf参数详解.mp4 07:28
* 08 driver相关参数的详解.mp4 12:10
* 09 executor相关参数的详解.mp4 14:58
* 10 Spark on Yarn资源分配.mp4 14:57
* 11 --jars参数详解(必须学习).mp4 12:20
* 12 --package相关参数详解.mp4 07:15
* 13 --files与--properties-file参数详解.mp4 08:24
* 14 --queue相关参数的详解.mp4 07:43
* 15 python spark正确提交(了解即可).mp4 07:56
* 16 利用SparkLauncher在代码中提交spark应用.mp4 10:19
* 17 spark脚本系统.mp4 11:30
* 18 源码学习方式
* 19 spark-class脚本原理以及实现.mp4 13:09
* 20 spark-daemon脚本原理以及实现.mp4 10:26
* 21 SparkSubmit原理以及源码分析.mp4 20:27
* 08 Schedulers On Driver/
* 01 课程内容.mp4 14:59
* 02 stage的划分(必须学习).mp4 16:37
* 03 stage的调度(必须学习).mp4 13:23
* 04 taskset调度的先进先出(FIFO)机制(必须学习).mp4 11:45
* 05 实战:实现taskset调度的公平调度(FAIR)(必须学习.mp4 18:47
* 06 taskset调度的公平调度(FAIR)机制需要注意的点.mp4 08:58
* 07 task调度的本地性级别定义.mp4 20:32
* 08 task调度的延迟调度讲解一.mp4 21:01
* 09 task调度的延迟调度讲解二.mp4 14:57
* 10 task调度的推测机制.mp4 08:14
* 11 task调度的黑名单机制.mp4 10:06
* 12 task调度的黑名单机制使用场景.mp4 07:41
* 13 一个Spark应用中的Job的数量.mp4 07:04
* 14 第二个Job的Stage的数量.mp4 15:27
* 15 默认情况下的Task的数量.mp4 11:50
* 16 分区调整场景一.mp4 03:22
* 17 分区调整场景二.mp4 10:31
* 18 分区调整场景三.mp4 05:28
* 19 分区调整场景四.mp4 06:51
* 20 总结RDD控制分区的方式.mp4 05:36
* 21 executor资源的管理.mp4 08:54
* 22 task的launch流程及其需要注意的点.mp4 10:28
* 23 task的statusUpdate流程.mp4 16:28
* 24 schedulers on driver的总体流程(必须学习.mp4 06:08
* 25 源码学习方式
* 26 源码讲解之schedulers的初始化.mp4 14:33
* 27 源码讲解之job提交流程.mp4 16:29
* 28 源码讲解之task结果处理.mp4 09:43
* 29 Spark Scheduler的总结说明
* 30 动态资源分配机制(必须学习).mp4 13:12
* 31 External shuffle service机制(必须掌.mp4 08:59
* 32 实操:开启External shuffle service机.mp4 13:26
* 33 Spark Core测试试卷二
* 09 Spark Job调优/
* 01 如何调优Spark Job





![[衡天云]爆款云服务器 低至12元/月](/hty.png)