飞豹客 · 教程详情

大数据 Hadoop 离线分布式系统

体系课

21 人浏览发布 2026-06-09更新 2026-07-10

本课程通过Hadoop集群部署、HDFS、Hive数据仓库等内容以及Impala、Hue等相关新技术的学习，使学习者达到具备企业数据部中高级应用开发、初级架构师

* 第一章大数据 Hadoop 离线分布式系统/

* hadoop源生集群搭建/

* 1、hadoop第二天上次课程内容回顾

* 2、hadoop的介绍以及发展历史和历史介绍等

* 3、hadoop的三大发行公司以及hadoop的架构模型

* 4、standAlone的环境搭建之配置文件修改

* 5、hadoop集群的standAlone环境的启动以及管理界面查看

* 6、hadoop的完全分布式环境搭建

* CDH版本集群搭建/

* 7、CDH版本的hadoop的重新编译

* 8、cdh版本的zk环境搭建

* 9、cdh版本的hadoop重新编译之后伪分布式环境搭建

* hdfs入门/

* 10、hadoop的hdfs以及MapReduce的体验

* 11、hdfs的基本特性介绍

* 12、hdfs的基本操作命令

* 13、hdfs的高级命令使用

* 14、hdfs的基准测试

* 15、hadoop第二天今日课程总结

* hdfs深入/

* 1、hadoop第三天上次课程内容回顾

* 2、今日课程内容大纲以及hdfs的基本实现

* 3、hdfs的架构以及副本机制和block块存储

* 4、hdfs当中的元数据管理以及元数据的查看

* 5、hdfs当中的fsimage与edist的合并过程

* 6、hdfs文件的写入过程

* 7、hdfs的文件的读取过程

* 8、hdfs的javaAPI开发以及如何解决winutils的问题

* 9、获取分布式文件系统客户端的几种方式

* 10、hdfs的javaAPI操作

* mapreduce入门/

* 11、MapReduce程序的入门

* 12、mapreduce程序的完成以及打包运行

* 13、mapreduce程序的本地模式运行

* 14、hadoop第三天今日课程总结

* mapreduce深入学习/

* 1、hadoop第四天上次课程内容回顾

* 2、MapReduce的分区

* 3、分区案例的补充完成运行实现

* 4、MapReduce的序列化以及自定义排序

* 5、mapreduce的排序以及序列化代码完成实现

* 6、MapReduce当中的计数器

* 7、mapreduce当中的规约过程（combiner）

* 8、手机流量汇总求和

* 9、手机上行流量排序实现

* 10、手机号码进行分区

* 11、maptask的运行机制

* 12、reducetask的运行机制

* 13、mapReduce的整个运行的过程，好好反复看视频

* 14、mapreduce数据的压缩-使用snappy来进行数据的压缩

* 15、reduce端的join算法的实现

* 16、map端join算法的代码实现1

* 17、map端的join算法的实现补充2

* 18、hadoop第四天今日课程总结

* mapreduce高级/

* 1、hadoop第五天上次课程内容回顾

* 2、共同好友求取步骤一

* 3、求取共同好友步骤二

* 4、倒排索引的建立

* 5、通过自定义inputformat实现小文件合并成为sequenceFile格式1

* 6、自定义inputformat实现小文件的合并2

* 7、自定义outputformat实现输出到不同的文件夹下面去

* 8、自定义分区实现分组求取topN

* 9、自定义分组求取top1

* 10、思考：如何分组求取topN的值

* 11、实现分组求取topN

* 12、mapreduce相关的参数调整

* yarn/

* 13、yarn资源调度的介绍

* 14、yarn集群当中的三种调度器

* 15、关于yarn当中常用的参数设置

* 16、hadoop第五天今日课程总结

* hive安装/

* 1、hadoop第六天上次课程内容回顾

* 2、数据仓库的基本概念

* 3、hive的基本介绍

* 4、hive的基本架构以及与hadoop的关系以及RDBMS的对比等

* 5、hive的安装之（使用mysql作为元数据信息存储）

* hive基本操作/

* 6、hive的基本操作

* 7、创建数据库的语法

* 8、hive当中创建内部表的语法

* 9、hive当中创建外部表的语法及外部表的操作

* 10、外部分区表综合练习

* 11、hive当中的分桶表以及修改表删除表数据加载数据导出等

* 12、hive当中的hql语法

* hive高级用法/

* 13、hive的函数

* 14、hive的数据压缩

* 15、hive的数存储格式介绍

* 16、hive当中常用的几种数据存储格式

* 17、存储方式与压缩格式相结合

* 18、hadoop第六天今日课程总结

* hive调优/

* 1、hive的调优之fetch的抓取以及表的优化

* 2、hive的调优

* 3、hive的课程总结

* flume/

* 4、离线项目处理的整个架构图

* 5、flume的基本介绍

* 6、flume的入门测试案例

* 7、flume监控文件夹，实现数据收集到hdfs上面去

* 8、flume采集某个文件内容到hdfs上面去

* 9、flume的多个agent串联实现node02采集数据发送给node03，node03保存数据到hdfs上面去

* 10、flume的更多组件介绍

* 11、flume的failover机制实现高可用

* 12、flume的load_balance实现机制

* 13、更多flume案例一，通过拦截器实现数据类型的区分

* 14、flume的拦截器实现不同类型的数据区分

* 15、flume的案例二，通过自定义拦截器实现数据的脱敏

* azkaban调度/

* 16、azkaban的介绍以及azkaban的soloserver的安装使用

* 17、azkaban的两个服务模式的安装

* 1、azkaban的任务调度使用

* sqoop/

* 2、sqoop的基本简介自己sqoop的安装

* 3、sqoop的入门测试使用

* 4、sqoop的数据导入之导入数据到hdfs以及导入数据到hive表当中来

* 5、实现数据的控制导入

* 6、sqoop的数据增量导入以及sqoop的数据导出

* 7、通过java代码远程连接linux执行linux的shell命令

* 网站点击流项目(上)/

* 1、网站流量分析模型

* 2、网站流量分析的常见指标

* 3、离线日志网站处理的架构流程（流程背下来）

* 4、网站的数据采集，使用flume的taildir实现多个文件的监控采集

* 5、数据的预处理之清洗一些不必要的数据

* 6、数据预处理之pageView表模型数据

* 7、数据的预处理之数据的visit表模型

* 8、hadoop第八天课程总结

* 网站点击流项目(下)/

* 1、数据仓库建模的基本概念

* 2、明细宽表的生成

* 3、流量统计分析，分组求topN

* 4、受访分析

* 5、访客分析

* 6、访客visit分析

* 7、hive的级联求和

* 8、结果的导出以及工作流的调度工作

* 9、三大框架整合搭建

* 10、实现第一个图标的显示

* 11、实现折线图的图表展示

* IMPALA/

* 1、impala的基本介绍

* 2、impala的架构介绍

* 3、impala软件的下载以及linux磁盘的挂载

* 4、linux磁盘的挂载

* 5、linxu的磁盘挂载2以及压缩文件的上传并解压

* 6、yum源制作过程

* 7、impala的安装以及配置过程

* 8、impala的shell交互窗口使用

* 9、impala的外部以及内部shell参数

* 10、impala的基本查询语法

* 11、impala当中的数据加载的四种方式

* 12、通过java代码来执行impala的查询操作

* HUE/

* 13、hue的下载以及安装配置

* 14、hue与hdfs以及与yarn集群的整合

* 15、hue与hive的整合

* 16、hue与impala以及与mysql的整合

* 17、hadoop第十天今日课程总结

* OOZIE/

* 1、hadoop11天上传课程内容回顾以及今日课程内容大纲

* 2、oozie介绍以及oozie的安装1

* 3、oozie的安装步骤2

* 4、通过oozie执行shell脚本

* 5、通过oozie执行hive的任务

* 6、通过oozie执行mapreduce的任务以及oozie执行sqoop的任务的解决思路

* 7、oozie当中的job任务的串联

* 8、oozie当中的定时任务的执行

* 9、oozie与hue的整合以及整合之后执行MR的任务

* 10、伪分布式环境转换为HA集群环境

* 11、hadoop的federation联邦机制（了解一下）

* 12、cm环境搭建的基础环境准备

* 13、clouderaManager的服务搭建

* 14、clouderaManager服务的安装3

* 15、hadoop11天今日课程总结

本篇 ¥29.00 · 开通 VIP 更划算

查看价格与购买

相关推荐

小滴课堂新一代AI全栈工程师-微服务AI智能面试对话平台

¥79.00 · 2464 浏览

AI+全能测试工程师

¥95.00 · 3175 浏览

小滴课堂中间件项目大课-自动化云测平台/Spingboot3.X/微服务/Kafka3.x

¥67.00 · 507 浏览

代码源信奥C++

¥19.90 · 2511 浏览

华清远见线上课程（创客学院）嵌入式+物联网

¥20.00 · 2476 浏览

小龙虾OpenClaw+Gemini+GPT+deepseek+Claude+AI绘画PPT数据分析

¥57.00 · 1436 浏览