通过本课程的学习,可学会如何使用非关系型数据库以及使用分布式计算引擎来处理海量的数据;并且可以使用数据仓库来对海量数据及逆行建模。

*   第一章 zookeeper/

  *   zookeeper入门/

    *   02.什么是分布式系统中的协调服务

    *   03.zookeeper在各种分布式协调场景中的应用

    *   04.zookeeper的功能介绍

    *   05.zookeeper集群安装--虚拟机准备

    *   06.zookeeper集群安装--配置修改--自动启动脚本编写

  *   zookeeper进阶/

    *   07.zookeeper自身的一些特性

    *   08.zookeeper的数据结构解析--znode--临时节点--永久节点--顺序节点

    *   09.zookeeper的命令行客户端使用----zookeeper的数据节点的增删改查---事件监听

    *   10.zookeeper的java客户端api(1)

    *   10.zookeeper的java客户端api(2)

    *   11.服务器动态上下线感知案例--需求--分析--实现

    *   12.服务器动态上下线感知案例----程序运行测试

    *   13.分布式共享锁的需求及实现思路

    *   14.分布式共享锁的实现及运行测试

    *   15.zookeeper集群的leader选举机制

*   第二章 redis/

  *   redis入门/

    *   16.nosql数据库的概念介绍

    *   01.redis的特性介绍

  *   redis的数据结构渗透/

    *   02.redis服务器启动为后台模式--命令行客户端操作string数据类型

    *   03.string类型数据结构的api操作及对象缓存应用

    *   04.简单任务调度队列的需求解析及实现思路

    *   05.list数据结构的应用--简单任务调度队列的代码实现

    *   06.hash数据结构的api操作及购物车模拟实现

    *   07.set数据结构的api操作

    *   08.sortedset数据结构的功能和api操作

    *   09.sortedset数据结构应用案例--热门排行榜

  *   基于redis的推荐系统/

    *   10.基于redis实现一个推荐系统的设计思路

    *   11.基于redis的推荐系统----代码实现

*   第三章 java增强/

  *   java增强-线程/

    *   java增强--线程实现基本方式

    *   java增强--线程同步--sychronized--lock

    *   java增强--线程同步--读写锁readwritelock

    *   java增强--线程池的使用

  *   java增强-消息队列/

    *   java增强--消息队列--blockingqueue

    *   java增强--消息服务中间件--activeMQ

  *   动态代理/

    *   java增强--java的反射api操作

    *   动态代理的工作机制解释

    *   动态代理的例子实现

  *   nio/

    *   socket编程的模型介绍--bio--aio--nio

    *   同步阻塞IO的编程模型

    *   nio的原理介绍

    *   nio的编程模型之---服务端

    *   nio的编程模型之--重新梳理

    *   nio的编程模型之--客户端编程

  *   netty/

    *   netty框架介绍及服务端编程模型

    *   netty框架编程模型之----报文处理handler及客户端编程模型

    *   netty框架编程模式实例之----发送对象数据

  *   RPC/

    *   自定义RPC框架的需求分析

    *   自定义rpc框架的实现之技术点----spring对象实例化过程

    *   自定义rpc框架的实现之技术点----通过spring获取加了自定义注解的类的实例

    *   自定义rpc框架的整体实现架构

    *   自定义rpc框架的服务端框架封装

    *   自定义rpc框架的服务端工作流程

    *   自定义rpc框架的客户端实现及工作流程

    *   自定义框架的应用程序运行测试

    *   自定义rpc框架提供给用户使用时的依赖管理

*   第四章 分布式系统的搭建和介绍/

  *   分布式系统介绍/

    *   离线阶段课程整体介绍

    *   大数据、云计算、hadoop相关概念介绍

    *   hadoop三大组件介绍和产生背景

    *   大数据应用场景和就业形势介绍

  *   分布式系统中三大组件的模拟实现/

    *   分布式系统介绍--HDFS模拟实现思路

    *   分布式系统介绍--HDFS模拟实现思路补充

    *   分布式系统介绍--MapReduce模拟实现思路

    *   分布式系统介绍--yarn模拟实现思路

  *   分布式系统的三大组件总结/

    *   分布式系统介绍--三大组件总结以及关系介绍1

    *   分布式系统介绍--三大组件总结以及关系介绍2

    *   分布式系统介绍--三大组件总结以及关系介绍3

  *   离线分析系统的项目结构和数据处理流程以及广告推广的解决方案/

    *   离线分析系统的项目结构和数据处理流程简介

    *   离线分析系统典型案例介绍--精准广告推送平台解决方案

  *   hadoop集群安装/

    *   hadoop集群安装--集群节点介绍、基础环境要求

    *   hadoop集群安装--静态ip修改、crt相关配置

    *   hadoop集群安装--如何快速克隆虚拟机

    *   hadoop集群安装--linux系统设置、JDK安装

    *   hadoop集群安装--hadoop安装目录讲解

    *   hadoop集群安装--hadoop配置文件讲解

    *   hadoop集群安装--hdfs集群两种启动方式+UI讲解

    *   hadoop集群安装--yarn集群启动方式+mr程序测试

*   第五章 HDFS/

  *   HDFS的基本操作和环境搭建/

    *   回顾hdfs的基本工作机制

    *   hdfs的概念跟特性回顾讲解

    *   hdfs的命令行操作常用命令1

    *   hdfs的命令行操作常用命令2

    *   hdfs实际开发中使用的场景

    *   java操作hdfs环境搭建以及环境测试

    *   hdfs客户端权限身份伪造的问题

    *   windows平台下开发hadoop需要注意的细节

  *   hdfs客户端操作/

    *   hdfs客户端操作--用流api进行文件上传

    *   hdfs客户端操作--用流api进行文件下载

    *   hdfs客户端操作--目录操作、查看文件夹以及文件信息

    *   hdfs客户端操作--客户端流式操作的代码实现

    *   hdfs客户端操作--上传文件(写数据)流程

    *   hdfs客户端操作--下载文件(读数据)流程

  *   NAMENODE工作机制/

    *   NAMENODE工作机制--元数据管理--三种存储机制

    *   NAMENODE工作机制--元数据管理--checkpoint过程

    *   NAMENODE工作机制--利用原理来分析解决生产中可能遇到的问题和现象

*   第六章 案例-流量汇总和worldcount/

  *   日志采集汇聚案例/

    *   日志采集汇聚案例----需求----实现流程

    *   日志采集汇聚案例----shell脚本实现

    *   日志采集汇聚案例----运行测试

  *   mapreduce初试-worldcount/

    *   回顾昨天的内容

    *   hadoop的RPC框架讲解

    *   第一个mapreduce程序--单词统计概述

    *   第一个mapreduce程序--Mapper的实现

    *   第一个mapreduce程序--Reducer的实现

    *   第一个mapreduce程序--客户端job提交类的编写实现

    *   第一个mapreduce程序--集群运行模式(hadoop jar)

    *   第一个mapreduce程序--本地运行模式和debug过程

    *   第一个mapreduce程序--本地运行提交到yarn执行可行性分析

  *   编程案例--流量汇总/

    *   MapReduce运算框架主体工作流程

    *   mapreduce编程案例--流量汇总--自定义对象的序列化方法

    *   mapreduce编程案例--流量汇总--mapper实现

    *   mapreduce编程案例--流量汇总--reducer实现

    *   mapreduce编程案例--流量汇总--jobDriver实现及提交运行

    *   mapreduce编程案例--流量汇总--按总流量倒序排序代码实现

    *   mapreduce编程案例--流量汇总--按总流量倒序排序程序运行

    *   昨天内容回顾

    *   流量汇总排序在一个mr-job中完成

    *   流量汇总分省份输出案例----自定义partitioner

*   第七章 mapreduce的工作机制/

  *   mapreduce工作机制详解/

    *   partitioner组件细节--reduce Task个数跟partition分区个数关系

    *   Combiner组件的用法及注意事项

    *   mapreduce工作机制详解--maptask端的机制

    *   mapreduce工作机制详解--Reducetask端的机制

    *   mapreduce工作机制详解--mapreduce工作机制详解----shuffle的含义

    *   maprecduce运算框架中用户可自定义的组件总结

  *   maptask并行度机制/

    *   maptask并行度机制--切片的原理

    *   maptask并行度机制--切片大小参数设置、debug跟踪

    *   maptask并行度机制优化经验之谈、reduceTask并行度决定

*   第八章 通过案例加强mapreduce算法/

  *   mapreduce编程案例-倒排索引/

    *   mapreduce编程案例--倒排索引--需求分析

    *   mapreduce编程案例--倒排索引--步骤1代码

    *   mapreduce编程案例--倒排索引--步骤2代码

  *   mapreduce编程案例--共同好友/

    *   mapreduce编程案例--共同好友--需求思路

    *   mapreduce编程案例--共同好友--实现步骤1

    *   mapreduce编程案例--共同好友--实现步骤2

  *   mapreduce编程案例--join算法/

    *   mapreduce编程案例--join算法--实现思路(map端、reduce端)

    *   mapreduce编程案例--join算法--map端join算法代码实现

    *   mapreduce编程案例--join算法--Map端join算法运行和注意事项

  *   mapreduce编程案例--TopN问题/

    *   mapreduce编程案例--TopN问题--Groupingcomparator使用思路

    *   mapreduce编程案例--TopN问题--Top1代码讲解运行

    *   mapreduce编程案例--TopN问题--TopN代码讲解运行

  *   mapreduce编程案例--运营商日志增强/

    *   mapreduce编程案例--josn解析

    *   mapreduce编程案例--运营商日志增强--需求分析

    *   mapreduce编程案例--运营商日志增强--代码主体程序

    *   mapreduce编程案例--运营商日志增强--自定义OutPutFormat

    *   mapreduce编程案例--运营商日志增强--环境准备、运行测试

*   第九章 hadoop进阶/

  *   Yarn/

    *   MapReduce跟Yarn的交互过程----完整详解

    *   yarn三种资源调度器

  *   mapreduce的优化方案/

    *   mapreduce参数优化讲解

    *   修改YARNRuner源码本地提交mr到Yarn

    *   全局计数器和job串联

    *   mapreduce数据压缩

  *   HDFS的高可用HA/

    *   HDFS的HA机制

    *   HA机器部署--节点规划--机器克隆

    *   HA机器部署--环境准备--配置文件修改(含federation机制讲解)

    *   HA机器部署--配置文件修改--集群启动步骤详解

    *   HA下java操作hdfs代码变化和HA性能测试

*   第十章 hive数仓/

  *   hive数仓-介绍/

    *   hive介绍

    *   hive架构说明

    *   hive与hadoop之间的关系以及包含的数据模型

  *   hive的入门/

    *   hive的安装部署

    *   hive的使用方式--hive、hiveserver2、beeline

    *   hive创建表以及如何加载数据到hive表中

    *   hive内部表跟外部表之间的区别

    *   hive分区表的使用

    *   hive指定表的存储格式stored as

  *   DML和DDL操作/

    *   hive表的DDL操作--修改表

    *   hive显示命令

    *   hive的DML操作load

    *   hive的DDL操作insert

    *   hive的DDL操作-select语句

  *   hive的桶表/

    *   hive的桶表

    *   hive桶表的实际应用

  *   hive的提升/

    *   hive中的join操作

    *   hive中集合类型

    *   hive中的严格模式和非严格模式

    *   hive shell参数使用说明

  *   hive进阶/

    *   hive函数介绍以及自定义UDF函数

    *   hive自定义UDF函数解析json格式的数据

    *   hive自定义函数-transform实现

    *   hive中多个字符分隔符处理--RegexSerDe

    *   hive中多个字符分隔符处理-自定义inputformat

    *   hive中累计求和的sql套路分析

*   第十一章 hadoop生态圈的组件/

  *   Flume介绍与安装/

    *   离线数据分析系统通用结构及所涉及的技术框架

    *   flume的介绍和运行机制

    *   Flume采集系统结果图

    *   Flume的安装部署以及初使用

    *   Flume常用的source、sink、channel介绍

  *   flume入门/

    *   Flume采集目录文件到HDFS

    *   Flume采集文件到HDFS

    *   Flume常用的拦截器介绍

    *   Flume中多个agent串联

  *   flume进阶/

    *   Flume的高可用故障转移failover

    *   Flume的高可用配置loadbalance

    *   Flume的日志分类采集汇总

    *   Flume自定义拦截器--实现字段过滤和加密

    *   Flume实际使用时需要注意的事项说明

  *   sqoop入门/

    *   sqoop的安装部署

    *   sqoop的介绍和工作机制

  *   sqoop的案例/

    *   sqoop数据导入案例(上)

    *   sqoop数据导入案例(下)

    *   sqoop数据导出案例

    *   sqoop的作业和代码定制介绍

  *   azkaban工作流调度介绍/

    *   azkaban的工作流调度器介绍

    *   azkaban的安装部署

    *   azkaban启动以及界面元素菜单介绍

  *   azkaban工作流调度的使用/

    *   azkaban的使用--简单的job创建执行

    *   azkaban的使用---多个job依赖形成工作流

    *   azkaban的使用---HDFS操作任务

    *   azkaban的使用---mapreduce任务

    *   azkaban的使用---hive脚本的任务

*   第十二章 HBASE数据仓库/

  *   hbase的介绍和集群搭建/

    *   01、hbase介绍

    *   02、hbase表结构逻辑视图--整体结构--cell--行健

    *   03、hbase表结构之--列族--列--cell--时间戳

    *   04、Hbase集群架构介绍

    *   05、Hbase集群搭建和web页面介绍

  *   hbase的java客户端代码编写/

    *   06、Hbase的shell客户端基本使用--表的初体验

    *   07.hbase的客户端基本使用get查询数据-删除数据-修改数据-版本号-删除表

    *   08.hbase的java客户端代码编写----获取连接----建表

    *   09.hbase的java客户端代码编写----删除表---修改表的schema

    *   10.hbase的java客户端代码编写----put插入数据、get获取数据、delete删除数据

    *   11.hbase的java客户端代码编写----scan批量查询数据

    *   12、hbase的java客户端代码编写--过滤器的使用

    *   13、hbase的java客户端代码编写--分页过滤器查询

  *   hbase的工作机制/

    *   14、hbase的工作机制--region的概率和机制

    *   15.hbase的工作机制----menstore以及如何快速判断一条数据是否落在某个storefile--bloomfilter

    *   16.hbased的工作机制----数据如何更新----文件的compact概念---hlog日志

    *   17.hbased的工作机制----物理存储机制的概念梳理

    *   18.hbase的工作机制----客户端寻址

    *   19、hbase工作机制--读写过程

  *   hbase的高级应用/

    *   20、hbase的高级应用

    *   20.mapreduce读取hbase中的数据进行数据分析----mapreduce将输出处理结果写入hbase

    *   22、hbase的二级索引实现方式--协处理器

    *   23、通过协处理器的observer实现二级索引代码编写--运行---测试

*   第十三章 网站点击流数据平台开发/

  *   web访问日志分析/

    *   web访问日志介绍

    *   web访问日志分析----点击流数据模型

    *   web访问日志分析----流量数据分析的意义

    *   web访问日志分析----流量分析模型

    *   网站数据分析----流量分析常见指标

  *   数据采集与预处理/

    *   网站点击流数据分析平台架构

    *   网站点击流数据平台开发----数据采集系统

    *   网站点击流数据平台开发----数据预处理

    *   网站点击流数据平台开发-----数据预处理

  *   生成表模型 调度脚本开发 数据仓库设计和模型表数据导入/

    *   网站点击流数据平台开发----生成点击流模型表Pageview

    *   网站点击流数据开发平台----生成模型表Visits表

    *   网站点击流数据开发平台----数据预处理调度脚本开发

    *   网站点击数数据开发平台----数据仓库设计和模型表数据导入

  *   指标分析/

    *   网站点击流数据开发平台----明细宽表的生成

    *   网站点击流数据开发平台----流量分析--多维度统计pv

    *   网站点击流数据开发平台----流量分析--分组取topN和人均游览页面数

    *   网站点击流数据开发平台----受访分析--热门页面统计分析

    *   网站点击流数据开发平台---访客分析--独立访客--新访客

    *   网站点击流数据开发平台---访客visit分析--回头访客--访客忠诚度

    *   网站点击流数据开发平台--关键路径转化率分析--漏斗模型

    *   网站点击流数据开发平台--结果导出--工作流程调度--数据可视化展现