本课程通过Hadoop集群部署、HDFS、Hive数据仓库等内容以及Impala、Hue等相关新技术的学习,使学习者达到具备企业数据部中高级应用开发、初级架构师

*   第一章 大数据 Hadoop 离线分布式系统/

  *   hadoop源生集群搭建/

    *   1、hadoop第二天上次课程内容回顾

    *   2、hadoop的介绍以及发展历史和历史介绍等

    *   3、hadoop的三大发行公司以及hadoop的架构模型

    *   4、standAlone的环境搭建之配置文件修改

    *   5、hadoop集群的standAlone环境的启动以及管理界面查看

    *   6、hadoop的完全分布式环境搭建

  *   CDH版本集群搭建/

    *   7、CDH版本的hadoop的重新编译

    *   8、cdh版本的zk环境搭建

    *   9、cdh版本的hadoop重新编译之后伪分布式环境搭建

  *   hdfs入门/

    *   10、hadoop的hdfs以及MapReduce的体验

    *   11、hdfs的基本特性介绍

    *   12、hdfs的基本操作命令

    *   13、hdfs的高级命令使用

    *   14、hdfs的基准测试

    *   15、hadoop第二天今日课程总结

  *   hdfs深入/

    *   1、hadoop第三天上次课程内容回顾

    *   2、今日课程内容大纲以及hdfs的基本实现

    *   3、hdfs的架构以及副本机制和block块存储

    *   4、hdfs当中的元数据管理以及元数据的查看

    *   5、hdfs当中的fsimage与edist的合并过程

    *   6、hdfs文件的写入过程

    *   7、hdfs的文件的读取过程

    *   8、hdfs的javaAPI开发以及如何解决winutils的问题

    *   9、获取分布式文件系统客户端的几种方式

    *   10、hdfs的javaAPI操作

  *   mapreduce入门/

    *   11、MapReduce程序的入门

    *   12、mapreduce程序的完成以及打包运行

    *   13、mapreduce程序的本地模式运行

    *   14、hadoop第三天今日课程总结

  *   mapreduce深入学习/

    *   1、hadoop第四天上次课程内容回顾

    *   2、MapReduce的分区

    *   3、分区案例的补充完成运行实现

    *   4、MapReduce的序列化以及自定义排序

    *   5、mapreduce的排序以及序列化代码完成实现

    *   6、MapReduce当中的计数器

    *   7、mapreduce当中的规约过程(combiner)

    *   8、手机流量汇总求和

    *   9、手机上行流量排序实现

    *   10、手机号码进行分区

    *   11、maptask的运行机制

    *   12、reducetask的运行机制

    *   13、mapReduce的整个运行的过程,好好反复看视频

    *   14、mapreduce数据的压缩-使用snappy来进行数据的压缩

    *   15、reduce端的join算法的实现

    *   16、map端join算法的代码实现1

    *   17、map端的join算法的实现补充2

    *   18、hadoop第四天今日课程总结

  *   mapreduce高级/

    *   1、hadoop第五天上次课程内容回顾

    *   2、共同好友求取步骤一

    *   3、求取共同好友步骤二

    *   4、倒排索引的建立

    *   5、通过自定义inputformat实现小文件合并成为sequenceFile格式1

    *   6、自定义inputformat实现小文件的合并2

    *   7、自定义outputformat实现输出到不同的文件夹下面去

    *   8、自定义分区实现分组求取topN

    *   9、自定义分组求取top1

    *   10、思考:如何分组求取topN的值

    *   11、实现分组求取topN

    *   12、mapreduce相关的参数调整

  *   yarn/

    *   13、yarn资源调度的介绍

    *   14、yarn集群当中的三种调度器

    *   15、关于yarn当中常用的参数设置

    *   16、hadoop第五天今日课程总结

  *   hive安装/

    *   1、hadoop第六天上次课程内容回顾

    *   2、数据仓库的基本概念

    *   3、hive的基本介绍

    *   4、hive的基本架构以及与hadoop的关系以及RDBMS的对比等

    *   5、hive的安装之(使用mysql作为元数据信息存储)

  *   hive基本操作/

    *   6、hive的基本操作

    *   7、创建数据库的语法

    *   8、hive当中创建内部表的语法

    *   9、hive当中创建外部表的语法及外部表的操作

    *   10、外部分区表综合练习

    *   11、hive当中的分桶表以及修改表删除表数据加载数据导出等

    *   12、hive当中的hql语法

  *   hive高级用法/

    *   13、hive的函数

    *   14、hive的数据压缩

    *   15、hive的数存储格式介绍

    *   16、hive当中常用的几种数据存储格式

    *   17、存储方式与压缩格式相结合

    *   18、hadoop第六天今日课程总结

  *   hive调优/

    *   1、hive的调优之fetch的抓取以及表的优化

    *   2、hive的调优

    *   3、hive的课程总结

  *   flume/

    *   4、离线项目处理的整个架构图

    *   5、flume的基本介绍

    *   6、flume的入门测试案例

    *   7、flume监控文件夹,实现数据收集到hdfs上面去

    *   8、flume采集某个文件内容到hdfs上面去

    *   9、flume的多个agent串联实现node02采集数据发送给node03,node03保存数据到hdfs上面去

    *   10、flume的更多组件介绍

    *   11、flume的failover机制实现高可用

    *   12、flume的load_balance实现机制

    *   13、更多flume案例一,通过拦截器实现数据类型的区分

    *   14、flume的拦截器实现不同类型的数据区分

    *   15、flume的案例二,通过自定义拦截器实现数据的脱敏

  *   azkaban调度/

    *   16、azkaban的介绍以及azkaban的soloserver的安装使用

    *   17、azkaban的两个服务模式的安装

    *   1、azkaban的任务调度使用

  *   sqoop/

    *   2、sqoop的基本简介自己sqoop的安装

    *   3、sqoop的入门测试使用

    *   4、sqoop的数据导入之导入数据到hdfs以及导入数据到hive表当中来

    *   5、实现数据的控制导入

    *   6、sqoop的数据增量导入以及sqoop的数据导出

    *   7、通过java代码远程连接linux执行linux的shell命令

  *   网站点击流项目(上)/

    *   1、网站流量分析模型

    *   2、网站流量分析的常见指标

    *   3、离线日志网站处理的架构流程(流程背下来)

    *   4、网站的数据采集,使用flume的taildir实现多个文件的监控采集

    *   5、数据的预处理之清洗一些不必要的数据

    *   6、数据预处理之pageView表模型数据

    *   7、数据的预处理之数据的visit表模型

    *   8、hadoop第八天课程总结

  *   网站点击流项目(下)/

    *   1、数据仓库建模的基本概念

    *   2、明细宽表的生成

    *   3、流量统计分析,分组求topN

    *   4、受访分析

    *   5、访客分析

    *   6、访客visit分析

    *   7、hive的级联求和

    *   8、结果的导出以及工作流的调度工作

    *   9、三大框架整合搭建

    *   10、实现第一个图标的显示

    *   11、实现折线图的图表展示

  *   IMPALA/

    *   1、impala的基本介绍

    *   2、impala的架构介绍

    *   3、impala软件的下载以及linux磁盘的挂载

    *   4、linux磁盘的挂载

    *   5、linxu的磁盘挂载2以及压缩文件的上传并解压

    *   6、yum源制作过程

    *   7、impala的安装以及配置过程

    *   8、impala的shell交互窗口使用

    *   9、impala的外部以及内部shell参数

    *   10、impala的基本查询语法

    *   11、impala当中的数据加载的四种方式

    *   12、通过java代码来执行impala的查询操作

  *   HUE/

    *   13、hue的下载以及安装配置

    *   14、hue与hdfs以及与yarn集群的整合

    *   15、hue与hive的整合

    *   16、hue与impala以及与mysql的整合

    *   17、hadoop第十天今日课程总结

  *   OOZIE/

    *   1、hadoop11天上传课程内容回顾以及今日课程内容大纲

    *   2、oozie介绍以及oozie的安装1

    *   3、oozie的安装步骤2

    *   4、通过oozie执行shell脚本

    *   5、通过oozie执行hive的任务

    *   6、通过oozie执行mapreduce的任务以及oozie执行sqoop的任务的解决思路

    *   7、oozie当中的job任务的串联

    *   8、oozie当中的定时任务的执行

    *   9、oozie与hue的整合以及整合之后执行MR的任务

    *   10、伪分布式环境转换为HA集群环境

    *   11、hadoop的federation联邦机制(了解一下)

    *   12、cm环境搭建的基础环境准备

    *   13、clouderaManager的服务搭建

    *   14、clouderaManager服务的安装3

    *   15、hadoop11天今日课程总结