本课程为具有一定编程开发经验的学员而准备，包括离线Hadoop、用户画像项目、蜂鸟广告项目、Flink电商项目、电商推荐系统、盘析点击流项目、天知反爬虫项目。

* 第一章大数据 Hadoop 离线分布式系统/

* hadoop源生集群搭建/

* 1、hadoop第二天上次课程内容回顾

* 2、hadoop的介绍以及发展历史和历史介绍等

* 3、hadoop的三大发行公司以及hadoop的架构模型

* 4、standAlone的环境搭建之配置文件修改

* 5、hadoop集群的standAlone环境的启动以及管理界面查看

* 6、hadoop的完全分布式环境搭建

* CDH版本集群搭建/

* 7、CDH版本的hadoop的重新编译

* 8、cdh版本的zk环境搭建

* 9、cdh版本的hadoop重新编译之后伪分布式环境搭建

* hdfs入门/

* 10、hadoop的hdfs以及MapReduce的体验

* 11、hdfs的基本特性介绍

* 12、hdfs的基本操作命令

* 13、hdfs的高级命令使用

* 14、hdfs的基准测试

* 15、hadoop第二天今日课程总结

* hdfs深入/

* 1、hadoop第三天上次课程内容回顾

* 2、今日课程内容大纲以及hdfs的基本实现

* 3、hdfs的架构以及副本机制和block块存储

* 4、hdfs当中的元数据管理以及元数据的查看

* 5、hdfs当中的fsimage与edist的合并过程

* 6、hdfs文件的写入过程

* 7、hdfs的文件的读取过程

* 8、hdfs的javaAPI开发以及如何解决winutils的问题

* 9、获取分布式文件系统客户端的几种方式

* 10、hdfs的javaAPI操作

* mapreduce入门/

* 11、MapReduce程序的入门

* 12、mapreduce程序的完成以及打包运行

* 13、mapreduce程序的本地模式运行

* 14、hadoop第三天今日课程总结

* mapreduce深入学习/

* 1、hadoop第四天上次课程内容回顾

* 2、MapReduce的分区

* 3、分区案例的补充完成运行实现

* 4、MapReduce的序列化以及自定义排序

* 5、mapreduce的排序以及序列化代码完成实现

* 6、MapReduce当中的计数器

* 7、mapreduce当中的规约过程（combiner）

* 8、手机流量汇总求和

* 9、手机上行流量排序实现

* 10、手机号码进行分区

* 11、maptask的运行机制

* 12、reducetask的运行机制

* 13、mapReduce的整个运行的过程，好好反复看视频

* 14、mapreduce数据的压缩-使用snappy来进行数据的压缩

* 15、reduce端的join算法的实现

* 16、map端join算法的代码实现1

* 17、map端的join算法的实现补充2

* 18、hadoop第四天今日课程总结

* mapreduce高级/

* 1、hadoop第五天上次课程内容回顾

* 2、共同好友求取步骤一

* 3、求取共同好友步骤二

* 4、倒排索引的建立

* 5、通过自定义inputformat实现小文件合并成为sequenceFile格式1

* 6、自定义inputformat实现小文件的合并2

* 7、自定义outputformat实现输出到不同的文件夹下面去

* 8、自定义分区实现分组求取topN

* 9、自定义分组求取top1

* 10、思考：如何分组求取topN的值

* 11、实现分组求取topN

* 12、mapreduce相关的参数调整

* yarn/

* 13、yarn资源调度的介绍

* 14、yarn集群当中的三种调度器

* 15、关于yarn当中常用的参数设置

* 16、hadoop第五天今日课程总结

* hive安装/

* 1、hadoop第六天上次课程内容回顾

* 2、数据仓库的基本概念

* 3、hive的基本介绍

* 4、hive的基本架构以及与hadoop的关系以及RDBMS的对比等

* 5、hive的安装之（使用mysql作为元数据信息存储）

* hive基本操作/

* 6、hive的基本操作

* 7、创建数据库的语法

* 8、hive当中创建内部表的语法

* 9、hive当中创建外部表的语法及外部表的操作

* 10、外部分区表综合练习

* 11、hive当中的分桶表以及修改表删除表数据加载数据导出等

* 12、hive当中的hql语法

* hive高级用法/

* 13、hive的函数

* 14、hive的数据压缩

* 15、hive的数存储格式介绍

* 16、hive当中常用的几种数据存储格式

* 17、存储方式与压缩格式相结合

* 18、hadoop第六天今日课程总结

* hive调优/

* 1、hive的调优之fetch的抓取以及表的优化

* 2、hive的调优

* 3、hive的课程总结

* flume/

* 4、离线项目处理的整个架构图

* 5、flume的基本介绍

* 6、flume的入门测试案例

* 7、flume监控文件夹，实现数据收集到hdfs上面去

* 8、flume采集某个文件内容到hdfs上面去

* 9、flume的多个agent串联实现node02采集数据发送给node03，node03保存数据到hdfs上面去

* 10、flume的更多组件介绍

* 11、flume的failover机制实现高可用

* 12、flume的load_balance实现机制

* 13、更多flume案例一，通过拦截器实现数据类型的区分

* 14、flume的拦截器实现不同类型的数据区分

* 15、flume的案例二，通过自定义拦截器实现数据的脱敏

* azkaban调度/

* 16、azkaban的介绍以及azkaban的soloserver的安装使用

* 17、azkaban的两个服务模式的安装

* 1、azkaban的任务调度使用

* sqoop/

* 2、sqoop的基本简介自己sqoop的安装

* 3、sqoop的入门测试使用

* 4、sqoop的数据导入之导入数据到hdfs以及导入数据到hive表当中来

* 5、实现数据的控制导入

* 6、sqoop的数据增量导入以及sqoop的数据导出

* 7、通过java代码远程连接linux执行linux的shell命令

* 网站点击流项目(上)/

* 1、网站流量分析模型

* 2、网站流量分析的常见指标

* 3、离线日志网站处理的架构流程（流程背下来）

* 4、网站的数据采集，使用flume的taildir实现多个文件的监控采集

* 5、数据的预处理之清洗一些不必要的数据

* 6、数据预处理之pageView表模型数据

* 7、数据的预处理之数据的visit表模型

* 8、hadoop第八天课程总结

* 网站点击流项目(下)/

* 1、数据仓库建模的基本概念

* 2、明细宽表的生成

* 3、流量统计分析，分组求topN

* 4、受访分析

* 5、访客分析

* 6、访客visit分析

* 7、hive的级联求和

* 8、结果的导出以及工作流的调度工作

* 9、三大框架整合搭建

* 10、实现第一个图标的显示

* 11、实现折线图的图表展示

* IMPALA/

* 1、impala的基本介绍

* 2、impala的架构介绍

* 3、impala软件的下载以及linux磁盘的挂载

* 4、linux磁盘的挂载

* 5、linxu的磁盘挂载2以及压缩文件的上传并解压

* 6、yum源制作过程

* 7、impala的安装以及配置过程

* 8、impala的shell交互窗口使用

* 9、impala的外部以及内部shell参数

* 10、impala的基本查询语法

* 11、impala当中的数据加载的四种方式

* 12、通过java代码来执行impala的查询操作

* HUE/

* 13、hue的下载以及安装配置

* 14、hue与hdfs以及与yarn集群的整合

* 15、hue与hive的整合

* 16、hue与impala以及与mysql的整合

* 17、hadoop第十天今日课程总结

* OOZIE/

* 1、hadoop11天上传课程内容回顾以及今日课程内容大纲

* 2、oozie介绍以及oozie的安装1

* 3、oozie的安装步骤2

* 4、通过oozie执行shell脚本

* 5、通过oozie执行hive的任务

* 6、通过oozie执行mapreduce的任务以及oozie执行sqoop的任务的解决思路

* 7、oozie当中的job任务的串联

* 8、oozie当中的定时任务的执行

* 9、oozie与hue的整合以及整合之后执行MR的任务

* 10、伪分布式环境转换为HA集群环境

* 11、hadoop的federation联邦机制（了解一下）

* 12、cm环境搭建的基础环境准备

* 13、clouderaManager的服务搭建

* 14、clouderaManager服务的安装3

* 15、hadoop11天今日课程总结

* 第二章用户画像系统/

* 用户画像基础知识与环境搭建/

* 01、hbase建表高级属性说明

* 02、hbase的rowkey设计

* 03、hbase的二级索引介绍

* 04、电商大数据应用值用户画像项目课程介绍

* 05、电商用户画像项目--初识用户画像

* 06、电商用户画像项目--构建电商用户画像的重大意义

* 07、电商用户画像项目--构建电商用户画像技术和流程

* 08、电商用户画像项目建模--用户基本属性表介绍

* 09、电商用户画像项目建模--客户消费订单表、客户购买类目表、用户访问信息表

* 10、电商用户画像环境搭建 sparksql整合hive

* 11、电商用户画像数据仓库建立

* 12、用户画像开发--客户基本属性表

* 13、用户画像开发--客户基本属性表开发封装shell脚本

* 14、用户画像开发--订单宽表开发

* 15、case when 案例补充

* 16、用户画像开发--客户消费订单表开发01

* 17、用户画像开发--客户消费订单表开发02

* 用户画像项目开发/

* 01、用户画像开发--客户购买类目表

* 02、用户画像开发--客户访问信息表说明

* 03、用户画像开发--客户访问信息表开发01

* 04、用户画像开发--客户访问信息表开发02

* 05、用户画像开发--用户画像宽表构建

* 06、用户画像项目数据处理流程

* 07、电商用户画像项目--hive整合hbase

* 08、电商用户画像项目--hive表的数据导入到hbase表中

* 09、电商用户画像项目--phoenix的安装部署

* 10、电商用户画像项目--hbase数据导入到phoenix

* 11、电商用户画像项目--数据可视化

* 12、电商用户画像项目梳理

* 13、spark面试题补充01

* 14、spark面试题补充02

* 第三章广告系统DMP项目/

* 广告平台介绍/

* 1、传统广告弊端以及和互联网时代下的广告模式对比

* 2、互联网广告平台DSP、DMP业务介绍

* 3、课程介绍以及课程目标

* 开发DMP数据管理平台/

* 4、项目整体机构以及整体业务流程和数据字段介绍

* 5、项目搭建和maven导入依赖

* 6、开发一个配置文件工具类

* 7、创建执行逻辑中的公共特质和统一入库代码

* 8、kudu的介绍

* 9、kudu的安装

* 10、kudu集成impala

* 11、需求1：根据IP解析经纬度之完善APP类

* 12、需求1：完善根据ip解析经纬度代码逻辑

* 13、需求1：开发SQL、schema等

* 14、报表1：统计地域分布情况

* 15、报表2：广告投放的地域分布情况统计

* 16、广告投放的APP分布情况统计

* 17、广告投放的手机设备类型分布情况统计

* 18、广告投放的网络类型分布情况统计

* 19、广告投放的网络运营商分布情况统计

* 20、广告投放的APP分布情况统计

* 21、生成商圈库：获取经纬度并过滤非中国IP信息

* 22、生成商圈库：获取商圈，并落地

* 23、数据标签化之前期准备代码和过滤掉不符合规范的数据集

* 24、数据标签化之生成：广告位类型标签、APP名称标签、渠道标签

* 25、数据标签化之生成：设备标签（操作系统、联网方式、运营商名称）、关键词标签、地域标签、性别标签

* 26、数据标签化之生成：年龄标签、商圈标签

* 27、数据标签化之生成用户的识别码并提出程序bug

* 28、统一用户识别之图计算学习

* 29、统一用户识别之使用图计算关联用户关系

* 30、对图计算整合后的结果进行聚合

* 31、生成了当天标签数据集之后，后续工作归纳

* 32、历史标签数据集与当天标签合并之获取历史标签数据

* 33、对历史标签数据集进行衰减

* 34、对合并后的数据集进行统一用户识别和局和操作

* 35、（补充）对合并后的数据集进行统一用户识别和局和操作

* 36、标签数据落地es

* 37、标签数据落地es之添加es相关配置信息

* 第四章 Flink-电商项目（新）/

* 项目背景与介绍/

* 1、项目背景和项目架构的介绍

* 2、项目架构定位（1）

* 2、项目架构定位（2）

* 3、课程目标定位

* 上报服务代码/

* 4、工程创建

* 5、上报服务模块开发之导包以及验证工程是否创建成功

* 6、上报服务代码编写1（编写msg消息体和springBoot的启动入口）

* 7、编写上报服务代码（1）

* 8、编写上报服务代码（2）

* 9、编写上报服务的springboot代码（1）

* 10、编写上报服务的springboot代码（2）

* 11、编写上报服务的springboot代码（3）

* 12、完善上报服务代码，并总结上报服务总体流程

* flink实时流处理环境配置/

* 13、flink实时流处理代码编写前介绍

* 14、maven依赖的导入原因和解释

* 15、配置开发、测试、生产环境的maven依赖

* 16、添加kafka和hbase的配置参数

* 17、开发获取配置文件的工具类

* 18、在开发过程中可能遇到的问题及解决方法（1）

* 19、在开发过程中可能遇到的问题及解决方法（2）

* 20、APP代码编写之添加checkpoint代码

* 21、APP代码开发之对接kafka

* 22、验证checkpoint和对接kafka代码

* 23、解析kafka传递过来的json串

* 24、将从kafka解析出的message数据转换成UserScan

* 25、将kafka得到的所有消息包括userScan封装到meessage，并且进行水印处理

* 26、构建hbase工具类1

* 27、构建hbase工具类2

* 28、构建hbase工具类3

* 业务1：频道实时热热点统计分析/

* 29、业务1：频道实时热热点统计分析（1）

* 30、业务1：频道实时热热点统计分析（2）

* 31、业务1：频道实时热热点统计分析（3）

* 32、业务1：频道实时热热点统计分析（4）

* 33、业务1：频道实时热热点统计分析（5）---错误解决

* 业务2：频道的PVUV分析/

* 34、业务2：频道的PVUV分析1--业务梳理

* 35、业务2：频道的PVUV分析2--编写PVUV实体类

* 36、业务2：频道的PVUV分析3--获取用户的访问状态（1）

* 37、业务2：频道的PVUV分析3--获取用户的访问状态（2）

* 38、业务2：频道的PVUV分析4--将水印数据转换成PVUV实体类

* 39、业务2：频道的PVUV分析5--pvuv数据分流、划分时间窗口、聚合

* 40、业务2：频道的PVUV分析6--数据落地

* 业务3：频道的新鲜度分析/

* 41、业务3：频道的新鲜度分析1--编写用户新鲜度实体类

* 42、业务3：频道的新鲜度分析2--将水印数据转换成用户新鲜度数据

* 43、业务3：频道的新鲜度分析3--数据分流、划分时间窗口、指标聚合

* 44、业务3：频道的新鲜度分析4--用户新鲜度结果数据落地

* 业务4：频道的地域分析/

* 45、业务4：频道的地域分析1--编写地域分析实体类(1)

* 46、业务4：频道的地域分析2--编写地域分析实体类(2)

* 47、业务4：频道的地域分析3--水印数据转换成地域分布数据

* 48、业务4：频道的地域分析4--分流、划分时间窗口、指标聚合

* 49、业务4：频道的地域分析5--频道地域指标落地操作

* 业务5：用户上网类型分析/

* 50、业务5：用户上网类型分析1--编写上网类型实体类

* 51、业务5：用户上网类型分析2--将水印数据转换成UserNetwork数据

* 52、业务5：用户上网类型分析3--分流、划分时间窗口欧、聚合指标

* 53、业务5：用户上网类型分析4--用户联网方式的指标结果落地到hbase

* 业务6：用户浏览器类型分析/

* 54、业务6：用户浏览器类型分析1--编写浏览器类型实体类

* 55、业务6：用户浏览器类型分析2--将水印数据转换成用户浏览器类型数据

* 56、业务6：用户浏览器类型分析3--分流、划分时间窗口、聚合

* 57、业务6：用户浏览器类型分析4--用户浏览器分析结果落地

* 业务数据同步系统开发/

* 58、业务数据同步系统开发1-mysql遇到数据压力及如何解决概述

* 59、业务数据同步系统开发2-创建业务数据表以及开启mysqlbinlog日志

* 60、业务数据同步系统开发3-安装canal

* 61、业务数据同步系统开发4-maven导入开发依赖

* 62、业务数据同步系统开发5-开发连接canal代码

* 63、业务数据同步系统开发6-编写java获取配置文件代码

* 64、业务数据同步系统开发7-使用canal解析binlog日志（1）

* 65、业务数据同步系统开发7-使用canal解析binlog日志（2）

* 66、业务数据同步系统开发7-使用canal解析binlog日志（3）

* 67、业务数据同步系统开发7-使用canal解析binlog日志（4）canal同步代码总结

* 68、业务数据同步系统开发8-使用flink同步mysql（1）flink同步代码编写的流程梳理以及创建承接数据的实体类.mp4

* 69、业务数据同步系统开发8-使用flink同步mysql（2）使用flink消费kafka的前4步.mp4

* 70、业务数据同步系统开发8-使用flink同步mysql（3）解析kafka数据流，封装成canal数据.mp4

* 71、业务数据同步系统开发8-使用flink同步mysql（4）验证流程是否能通.mp4

* 72、业务数据同步系统开发8-使用flink同步mysql（5）说明在同步过程中mysql的语句不同会返回什么类型的数据特点【重要】.mp4

* 73、业务数据同步系统开发8-使用flink同步mysql(6) 获取触发更改的列.mp4

* 74、业务数据同步系统开发8-使用flink同步mysql(7) 操作类型判断的代码编写以及购物车表的特殊处理声明.mp4

* 75、业务数据同步系统开发8-使用flink同步mysql(8) 更新操作（Hbase）.mp4

* 76、业务数据同步系统开发8-使用flink同步mysql(9) 删除操作（Hbase）.mp4

* 77、业务数据同步系统开发8-使用flink同步mysql(10) 处理购物车分析表和完成同步工作.mp4

* 78、业务数据同步系统开发8-使用flink同步mysql(11) 验证同步功能.mp4

* 79、业务数据同步系统开发8-使用flink同步mysql(12) 总结.mp4

* 80、flink批处理之每日产品成交分析之构建批处理的执行环境1

* 81、flink批处理之每日产品成交分析之构建批处理的执行环境2

* 82、flink批处理之每日产品成交分析之订单实体类构建3

* 83、flink批处理之每日产品成交分析之封装订单数据到实体类4

* 84、flink批处理之每日产品成交分析之构建交易分析实体类5

* 85、flink批处理之每日产品成交分析之根据订单得到交易数据6

* 86、flink批处理之每日产品成交分析之成交数据和未成交数据的叠加操作以及数据落地操作-7

* 87、flink批处理之每日产品成交分析之执行代码并观察结果-8

* 88、优化部分之上报服务存在的问题概述1

* 89、优化部分之上报服务存在的问题解决

* 90、优化部分之启动部分做成可插拔方式

* 91、优化部分之编写手动维护kafka偏移量的工具类

* 92、优化部分之将消费异常的offset提交到Hbase中维护

* 93、优化部分之根据传递的参数明确执行任务类以及手动维护事务，确保代码出问题的时候不提交offset

* 94、优化部分之验证代码

* 95、优化部分之修改代码bug

* 96、优化部分之修改代码bug2

* 97、打包上线之yarnSeesion模式

* 98、打包上线之flinkOnYarn的第二种模式

* 第五章电商推荐系统/

* 推荐系统-机器学习理论基础详解/

* 1.大数据时代究竟改变了什么？(了解)

* 2.大数据的4V特征(理解)

* 3.大数据项目架构-以电信日志分析为例(理解)

* 3-1.大数据项目架构-以电信日志分析为例(理解)-配置和医疗扩展

* 4.机器学习-人工智能发展(了解)

* 5.机器学习-人工智能概念区别和联系(掌握)

* 6.机器学习-数据、数据分析、数据挖掘区别和联系(掌握)

* 7.什么是机器学习(掌握)

* 8.基于规则的学习和基于模型的学习(掌握)

* 9-1.机器学习关于数据集的概念(掌握)

* 9-2.机器学习关于数据集的概念(掌握)

* 9-3.机器学习关于数据集的概念(掌握)

* 9-4 概念学习

* 10-1.机器学习分类详解(理解)

* 10-2.机器学习分类详解(理解)

* 11.机器学习经典案例举例-手写体识别(了解)

* 12.机器学习三要素详解及概念强化(熟悉)

* 13.如何设计机器学习系统(了解)

* 14.模型选择-泛化性能体现(掌握)

* 15.机器学习三要素数学理论补充(理解)

* 16.正则化(了解)

* 17.交叉验证(了解)

* 18.为什么先在是进入机器学习最佳时机(了解)

* 19总结

* 推荐系统-业务基础及架构详解/

* 00-昨日回顾加强day2

* 01-练习题讲解

* 1.亚马逊推荐业务理解

* 2.推荐系统引入

* 3.推荐方法简述

* 4-1.推荐系统项目实例

* 4-2.推荐系统项目实例

* 4-3.推荐系统项目实例

* 4-4.推荐系统项目实例

* 5.混合推荐系统

* 6.推荐系统评测方法和指标

* 7.冷启动问题

* 8.淘宝推荐架构详解

* 9.Netflix个性化推荐系统

* 10.58同城推荐系统架构设计与实现

* 11.58转转推荐案例实践

* 12.58到家推荐案例实践

* 13.京东推荐系统架构详解

* 14.推荐系统架构设计详解

* 15.总结day2

* 推荐系统-经典协同过滤理论基础实践/

* 00-前置回顾day3

* 1.协同过滤推荐方法CF简介

* 2.U-U矩阵相似度推荐-Pearson

* 3.V-V矩阵相似度推荐-cos

* 4.U-V矩阵的相似度推荐

* 5.基于用户的CF详解

* 6.基于物品的CF详解

* 7.UserCF和ItemCF区别和联系

* 8-1.推荐算法实战协同过滤源码之UserCF分析

* 8-2.推荐算法实战协同过滤源码之UserCF分析

* 9-1.推荐算法实战协同过滤源码之ItemCF分析

* 9-2.推荐算法实战协同过滤源码之ItemCF分析

* 9-3.推荐算法实战协同过滤源码之ItemCF分析

* 10.基于相似度推荐源码实战

* 11.Mahout是什么-12.Mahout能做什么

* 13.Mahout协同过滤算法

* 14.Mahout协同过滤算法编程

* 15.基于Mahout混合推荐业务需求分析和数据准备

* 16.基于Mahout混合推荐业务功能实现分析和产品原型设计

* 17.基于Mahout混合推荐项目开发及补充

* 18.基于模型的CF理解

* 19.基于LFM推荐算法

* 20.补充知识点：梯度下降法

* 21.LFM总结

* 22.今日总结day3

* 推荐系统-基于模型协同过滤理论基础与业务实践/

* 00-昨日回顾day4-1

* 00-昨日回顾day4-2

* 1.SparkMllib库框架详解

* 1-1.SparkMllib库框架详解

* 2.SparkMllib基本数据类型

* 2-1.SparkMllib基本数据类型

* 3.统计量的MLLIB实现

* 4.Mllib抽取-转换-选择之特征提取器

* 5.Mllib抽取-转换-选择之特征转换

* 6.Mllib抽取-转换-选择之特征选择器

* 6-1.最小二乘法

* 7.ALS 实战从行为数据到评分再到预测-API简介

* 8.ALS 实战从行为数据到评分再到预测-需求分析与说明

* 9.ALS 实战从行为数据到评分再到预测-实战

* 10-ALS算法入门与LFM区别和联系-11-ALS算法实战基础推荐

* 11-ALS算法实战基础推荐-12-ALS算法原理详解

* 13-ALS算法步骤详解

* 14-ALS算法显示反馈与隐式反馈

* 15-ALS算法源码简介

* 16.ALS推荐算法在Spark上的优化

* 18.PySpark基础环境搭建(了解)

* 19.构建PySpark简单推荐系统(了解)

* 20.总结day4

* 推荐系统-关联规则理论基础与业务实践/

* 00-昨日回顾day5

* 1.基于知识的推荐方法简介

* 2.关联规则算法引入

* 3-1.关联分析问题定义

* 3-2.关联分析问题定义

* 3-3.关联分析问题定义

* 4.Apriori算法详解

* 5.候选集的产生和剪枝与支持度计数

* 6.Apriori规则产生

* 7.Apriori案例补充

* 8.Apriori源码梳理与讲解

* 9.FP-Growth算法引入

* 10.FP-Growth树表示

* 11.FP-Growth算法频繁项集产生方法

* 12.FP-Growth算法案例讲解

* 13.FP-Growth算法源码梳理

* 14-1.Spark频繁模式挖掘实践

* 14-2.Spark频繁模式挖掘实践

* 15.基于Spark的FP-Growth算法项目实战

* 16-17.Mlxtend 库实战Apriori 算法(了解)

* 18.利用Python 进行市场购物篮简易分析(了解)

* 19.总结day5

* 推荐系统-用户标签预测算法基础实践1/

* 00-0知识点回顾与总结

* 00-1Surprise库入门简介

* 00-2surprise库svd和svd++及其他算法简介

* 00-3surprise库实战

* 00-4.suprisemusic实践

* 1.用户画像概述

* 2常见用户画像业务分析指标

* 3.如何利用用户行为数据

* 4.如何利用用户标签数据

* 5.用户画像建模分类

* 6.决策树引入

* 7.电商实例引入详解

* 8.构建决策树三要素

* 9.熵和信息熵详解

* 10-1.信息增益与ID3算法详解

* 10-2.信息增益与ID3算法详解

* 10-3.信息增益与ID3算法详解

* 11.决策树其他优化算法

* 12.树剪枝详解

* 13.电商案例ID3算法实例详解

* 14.决策树解决电商数据预测购买及补充问题

* 15.决策树实战相亲数据集案例及可视化实战

* 16.决策树实战Iris数据集识别及可视化实战

* 17.决策树算法API详解

* 00.总结

* 推荐系统-用户标签预测算法基础实践2/

* 00-10-总结

* 1-1.泰坦尼克号获救人员识别实战

* 1-2.泰坦尼克号获救人员识别实战

* 1-3.泰坦尼克号获救人员识别实战

* 2.线性回归理论基础及算法详解-3.线性回归房价预测实战

* 2-1.线性回归理论基础及算法详解

* 3.线性回归房价预测实战

* 4.Cart回归树原理详解

* 5.Cart分类树原理简介

* 5-1.Cart分类树原理简介

* 7.Cart树剪枝

* 8.Cart树实战回归和分类问题

* 9.随机森林简介及集成学习基础

* 10.随机森林算法详解

* 11.随机森林算法分类及回归实战

* 12.集成学习算法注意事项

* 13.Bagging算法原理

* 14.Bagging算法实战

* 15.Boosting算法原理

* 17-1.Adaboost算法原理

* 17-2.Adaboost算法原理

* 18.Adaboost算法实战

* 19.Adaboost实战葡萄酒数据

* 20.GBDT算法详解

* 20.GBDT算法详解-XGBOOST基础(GBDT增强)

* 20.GBDT算法详解-XGBOOST基础(XGBOOST和GBDT区别和联系)

* 20.GBDT算法详解-XGBOOST基础(XGBOOST基础)

* 21.GBDT算法改进的XGBOOST算法及总结

* 22.集成模型回归分析波斯顿房价实战

* 23.集成学习如何保证多样性？

* 24-10.总结

* 推荐系统-用户标签预测算法基础项目实战/

* 00-11-机器学习回顾复习

* 1-数据挖掘项目-人才流失模型项目介绍

* 2.人才流失模型需求分析和数据探索分析

* 3.项目架构

* 4.环境准备

* 5.数据的探索和思考正负样本比例

* 6.业务数据可视化展示

* 7-1.特征选择和特征数据筛选

* 7-2.特征选择和特征数据筛选

* 7-3.特征选择和特征数据筛选

* 7-4.特征选择和特征数据筛选

* 7-5.特征选择和特征数据筛选

* 7-6.特征选择和特征数据筛选

* 7.特征选择和特征数据筛选

* 9.整合所有特征数据

* 10.使用GBDT和LR算法训练模型并预测

* 10-1.使用GBDT和LR算法训练模型并预测

* 10-1414.采样技术详解

* 15.结合采样技术对模型进行重新建模和预测

* 16.项目总结

* 17-11.总结

* 推荐系统-Ctr点击率预估理论基础及项目实战/

* 00-12机器学习回顾

* 01-机器学习实战手写体数据实践

* 1.机器学习推荐算法模型回顾

* 2.机器学习重排序-线性模型

* 3.机器学习重排序-非线性模型

* 4.机器学习重排序-GBDT+LR简介

* 5.排序模型发展

* 6.爱奇艺推荐排序模型

* 7.极大似然估计

* 8.梯度下降法及牛顿法

* 9.逻辑斯特回归模型

* 10.逻辑斯特回归模型实践-11.线性回归和逻辑回归的API

* 12.GBDT_LR实战与总结

* 13.腾讯-GBDT与LR

* 14.CTR在广告场景应用

* 15.Avazu-CTR-Prediction-LR代码

* 18.Ctr技术发展应用

* 18-2.Ctr技术发展应用-2

* 19-12.总结

* 第六章盘析点击流项目/

* 项目介绍、埋点采集数据/

* 03--网站流量日志分析--网站日志分析的意义

* 04--网站流量日志分析--如何进行网站分析（流量、内容、转化）

* 05--网站流量日志分析--网站流量日志获取方式

* 06--网站流量日志分析--自定义采集数据实现雏形

* 07--网站流量日志分析--原理分析

* 08--网站流量日志分析--设计实现--埋点代码

* 09--网站流量日志分析--设计实现--前端采集数据js实现

* 10--网站流量日志分析--设计实现--后端实现

* 11--网站流量日志分析--设计实现--日志格式&日志文件的滚动

* 12--网站流量日志分析--系统部署架构图

* 13--网站流量日志分析--系统安装实现（心细）

* 14--网站流量日志分析--采集方案1--收集页面内置基本属性

* 15--网站流量日志分析--采集方案2--点击事件的数据收集

* 16--网站流量日志分析--中文乱码解决

* 项目架构、flume采集、数据预处理/

* 01--网站流量日志分析--项目技术流程介绍

* 02--网站流量日志分析--项目技术架构

* 03--网站流量日志分析--模块开发--数据采集--flume新组建介绍

* 04--网站流量日志分析--模块开发--数据采集--flume配置&hdfs sink精讲

* 05--网站流量日志分析--模块开发--数据采集--flume最小副本数

* 06--网站流量日志分析--模块开发--数据预处理-概述

* 07--网站流量日志分析--模块开发--数据预处理-思路梳理

* 08--网站流量日志分析--模块开发--数据预处理-环境搭建&思路

* 09--网站流量日志分析--模块开发--数据预处理-具体实现

* 10--网站流量日志分析--模块开发--数据预处理-执行验证

* 11--网站流量日志分析--模块开发--数据预处理-点击流模型之pageviews

* 12--网站流量日志分析--模块开发--数据预处理-点击流模型之visits

* 13--网站流量日志分析--模块开发--数据预处理-pageviews实现思路

* 14--网站流量日志分析--模块开发--数据预处理-pageviews编程实现

* 15--网站流量日志分析--模块开发--数据预处理-visits实现思路

* 16--网站流量日志分析--模块开发--数据预处理-visits编程实现

* 今日课程总结

* 无聊验证mr输出为null的情况

* 数仓维度建模、ETL/

* 00--今日课程大纲

* 01--网站流量日志分析--模块开发--数据预处理--UA解析

* 02--网站流量日志分析--模块开发--数据预处理--了解IP的解析

* 03--网站流量日志分析--模块开发--数仓设计--维度建模（事实表、维度表）

* 04--网站流量日志分析--模块开发--数仓设计--维度建模模型

* 05--网站流量日志分析--模块开发--数仓设计--本项目中设计

* 06--网站流量日志分析--模块开发--数据入库--后续待做的事

* 07--网站流量日志分析--模块开发--数据入库--ods建表数据load

* 08--网站流量日志分析--模块开发--数据入库--宽表窄表概念

* 09--网站流量日志分析--模块开发--数据入库--再次梳理ods、dw意义

* 10--网站流量日志分析--模块开发--数据入库--宽表的生成

* 11--网站流量日志分析--常见分析指标（基础、复合）

* 12--网站流量日志分析--常见分析模型上（基础分析、来源分析）

* 13--网站流量日志分析--常见分析模型下（受访、访客）

* 14--hive sql加强--如何解读指标&编写sql顺序

* 15--hive sql加强--嵌套子查询

* 16--hive sql加强--group by语法限制问题

* 17--hive sql加强--分组字段对结果的影响

* 数据导出、任务调度、数据可视化/

* 01--网站流量日志分析--模块开发--统计分析--访客visits分析

* 02--网站流量日志分析--模块开发--统计分析--漏斗模型需求分析

* 03--网站流量日志分析--模块开发--统计分析--级联求和案例

* 04--网站流量日志分析--模块开发--统计分析--转化数据union all

* 05--网站流量日志分析--模块开发--统计分析--漏斗模型实现

* 06--网站流量日志分析--模块开发--数据导出--sqoop原理介绍

* 07--网站流量日志分析--模块开发--数据导出--sqoop import(hdfs hive)

* 08--网站流量日志分析--模块开发--数据导出--sqoop export

* 09--网站流量日志分析--模块开发--数据导出--注意数据分隔符问题

* 10--网站流量日志分析--模块开发--sqoop--option file

* 11--网站流量日志分析--模块开发--sqoop--job作业使用

* 12--网站流量日志分析--模块开发--工作流调度--产生背景介绍

* 13--网站流量日志分析--模块开发--工作流调度--azkaban安装

* 14--网站流量日志分析--模块开发--工作流调度--数据预处理任务调度

* 15--网站流量日志分析--模块开发--工作流调度--mysql上传大文件问题

* 16--网站流量日志分析--模块开发--工作流调度--如何编写shell

* 17--网站流量日志分析--模块开发--工作流调度--hql调度执行

* 18--网站流量日志分析--模块开发--数据可视化--echarts介绍

* 19--网站流量日志分析--模块开发--数据可视化--echarts入门&开发步骤

* 20--网站流量日志分析--模块开发--数据可视化--后端项目的搭建（SSM整合）

* 21--网站流量日志分析--模块开发--数据可视化--后端项目架构讲解

* 22--网站流量日志分析--模块开发--数据可视化--mybatis逆向工程

* 23--网站流量日志分析--模块开发--数据可视化--平均pv柱状图展示

* 24--网站流量日志分析--模块开发--数据可视化--来访分类饼图展示

* 25--网站流量日志分析--模块开发--数据可视化--vue版前端项目搭建、接口规则说明

* 26--网站流量日志分析--模块开发--数据可视化--vue版--复杂json格式数据剖析

* 27--网站流量日志分析--模块开发--数据可视化--vue版--复杂json具体实现

* 指标统计分析、分析窗口函数视频/

* 00--今日课程大纲

* 01--网站流量日志分析--模块开发--统计分析--流量基础指标分析（pv uv vv ip）

* 02--网站流量日志分析--模块开发--统计分析--复合指标

* 03--网站流量日志分析--模块开发--统计分析--多维数据分析1

* 04--网站流量日志分析--模块开发--统计分析--多维数据分析2&小结

* 05--网站流量日志分析--模块开发--统计分析--topn&分组函数row number

* 06--网站流量日志分析--模块开发--统计分析--row number和其兄弟们

* 07--网站流量日志分析--模块开发--统计分析--分析窗口函数（sum avg max min）

* 08--网站流量日志分析--模块开发--统计分析--如何利用分组统计连续登陆问题

* 09--网站流量日志分析--模块开发--统计分析--日期函数

* 10--网站流量日志分析--模块开发--统计分析--了解其他不常见分析窗口函数

* 11--网站流量日志分析--模块开发--统计分析--受访分析、访客分析

* 第七章天知-反爬虫项目/

* 项目背景与功能描述/

* 1、【反爬虫项目】项目背景介绍

* 2、【反爬虫项目】项目数据流向详解

* 3、【反爬虫项目】项目概述

* 4、【反爬虫项目】逻辑架构讲解

* 5、【反爬虫项目】功能描述-数据采集模块

* 6、【反爬虫项目】功能描述--数据分类和处理模块

* 7、【反爬虫项目】功能描述--报表模块

* 系统架构/

* 8、【反爬虫项目】系统架构--技术选型

* 9、【反爬虫项目】系统架构--系统用例图

* 10、【反爬虫项目】系统架构--性能要求

* 11、【反爬虫项目】系统架构--模块分解策略和浏览器兼容性

* 12、【反爬虫项目】系统架构--数据库er图（上）

* 13、【反爬虫项目】系统架构--数据库er图（下）

* 防爬原则/

* 14、【反爬虫项目】防爬规则

* 15、【反爬虫项目】阶段总结：项目整体描述

* 16、【反爬虫项目】数据采集模块--整体流程讲解

* 数据采集模块-OpenResty/

* 17、【反爬虫项目】数据采集模块--openresty简介

* 18、【反爬虫项目】数据采集模块--openresty常用架构

* 19、【反爬虫项目】数据采集模块--openresty的2种安装方式

* 20、【反爬虫项目】数据采集模块--openresty交互的两种方式

* 21、【反爬虫项目】数据采集模块--openresty的变量与数据类型

* 22、【反爬虫项目】数据采集模块--openresty的运算符操作

* 23、【反爬虫项目】数据采集模块--openresty的条件控制语句

* 24、【反爬虫项目】数据采集模块--openresty的while和repeat循环控制语句

* 25、【反爬虫项目】数据采集模块--openresty的数值for循环

* 26、【反爬虫项目】数据采集模块--openresty的数组和泛型for循环

* 27、【反爬虫项目】数据采集模块--openresty的数据类型转换

* 28、【反爬虫项目】数据采集模块--openresty的函数定义

* 29、【反爬虫项目】数据采集模块--openresty的lua的模块

* 30、【反爬虫项目】数据采集模块--openresty的nginx集成lua的两种方式

* 31、【反爬虫项目】数据采集模块--openresty的lua获取get和post的请求参数

* 32、【反爬虫项目】数据采集模块--openresty的lua获取header和body的请求参数

* 33、【反爬虫项目】数据采集模块--openresty的lua集成redis创建连接

* 34、【反爬虫项目】数据采集模块--openresty的lua集成redis写数据

* 35、【反爬虫项目】阶段总结--数据采集模块

* 数据采集模块-Kafka API/

* 36、【反爬虫项目】数据采集模块--第二阶段课程目标

* 37、【反爬虫项目】数据采集模块--kafkaapi的producer回顾

* 38、【反爬虫项目】数据采集模块--kafkaapi的consumer回顾

* 数据采集模块-Lua集成Kafka/

* 39、【反爬虫项目】数据采集模块--lua集成kafka技术方案简介

* 40、【反爬虫项目】数据采集模块--lua集成kafka的nginx配置修改

* 41、【反爬虫项目】数据采集模块--lua集成kafka的自定义分区数

* 42、【反爬虫项目】数据采集模块--lua集成kafka的自定义分区数代码实现

* 43、【反爬虫项目】数据采集模块--lua采集request数据

* 44、【反爬虫项目】数据采集模块--lua脚本总结

* 45、【反爬虫项目】数据采集模块--lua脚本测试

* 数据采集模块-构建streaming项目/

* 46、【反爬虫项目】数据采集模块--爬虫程序讲解

* 47、【反爬虫项目】数据处理模块--创建工程-引入工具类

* 48、【反爬虫项目】数据处理模块--项目工具类简介

* 49、【反爬虫项目】数据处理模块--stream消费kafka两种方式的区别

* 50、【反爬虫项目】数据处理模块--stream消费kafka的第一种方式

* 51、【反爬虫项目】数据处理模块--stream消费kafka的第二种方式

* 52、【反爬虫项目】数据处理模块--驱动类launcher编写

* 53、【反爬虫项目】数据处理模块--编写setup方法消费kafka的消息

* 数据处理模块--链路统计/

* 54、【反爬虫项目】数据处理模块--链路统计需求分析

* 55、【反爬虫项目】数据处理模块--链路统计代码实现（上）

* 56、【反爬虫项目】数据处理模块--链路统计代码实现（中）

* 57、【反爬虫项目】数据处理模块--链路统计代码实现（下）

* 58、【反爬虫项目】数据处理模块--web端定时任务将redis数据计算入mysql

* 59、【反爬虫项目】数据处理模块--web端BI展示代码简介

* 60、【反爬虫项目】数据处理模块--阶段总结--链路统计功能

* 数据处理模块--数据清洗/

* 61、【反爬虫项目】数据处理模块--数据清洗需求分析

* 62、【反爬虫项目】数据处理模块--数据清洗--数据库规则读取并设置广播变量

* 63、【反爬虫项目】数据处理模块--数据清洗--数据库规则更新流程

* 64、【反爬虫项目】数据处理模块--数据清洗代码实现

* 数据处理模块--数据脱敏/

* 65、【反爬虫项目】数据处理模块--数据脱敏需求分析

* 66、【反爬虫项目】数据处理模块--数据脱敏--手机号脱敏代码实现

* 67、【反爬虫项目】数据处理模块--数据脱敏--手机号脱敏测试

* 68、【反爬虫项目】数据处理模块--数据脱敏--身份证号脱敏

* 数据处理模块--数据分类/

* 69、【反爬虫项目】数据处理模块--数据分类需求分析

* 70、【反爬虫项目】数据处理模块--数据分割代码实现

* 71、【反爬虫项目】数据处理模块--数据分类--数据库规则加载

* 72、【反爬虫项目】数据处理模块--数据分类打标签

* 73、【反爬虫项目】数据处理模块--数据往返打标签

* 74、【反爬虫项目】数据处理模块--数据解析需求分析

* 75、【反爬虫项目】数据处理模块--数据解析代码实现

* 76、【反爬虫项目】数据处理模块--数据解析代码实现-预定数据解析简介

* 数据处理模块-数据结构化代码/

* 77、【反爬虫项目】数据处理模块--数据解析代码实现-预定数据解析简介

* 78、【反爬虫项目】数据处理模块--第四阶段课程目标

* 79、【反爬虫项目】数据处理模块--高频ip需求分析

* 80、【反爬虫项目】数据处理模块--高频ip代码实现

* 81、【反爬虫项目】数据处理模块--数据结构化需求分析

* 83、【反爬虫项目】数据处理模块--数据结构化代码实现（下）

* 84、【反爬虫项目】数据处理模块--数据结构化总结

* 85、【反爬虫项目】数据处理模块--数据推送需求分析

* 86、【反爬虫项目】数据处理模块--数据推送--推送query数据

* 87、【反爬虫项目】数据处理模块--数据推送--推送book数据数据

* 88、【反爬虫项目】数据处理模块--整体流程回顾

* 数据监控模块/

* 89、【反爬虫项目】数据监控模块--任务监控需求分析

* 90、【反爬虫项目】数据监控模块--任务监控代码实现（上）

* 91、【反爬虫项目】数据监控模块--任务监控代码实现（下）

* 92、【反爬虫项目】数据监控模块--任务监控总结

* 93、【反爬虫项目】数据监控模块--任务监控补充视频

* 94、【反爬虫项目】数据监控模块--任务监控--首页报表加载流程

* 95、【反爬虫项目】数据监控模块--任务监控--系统运行情况后台逻辑

* 96、【反爬虫项目】数据监控模块--任务监控--实时流量转发后台逻辑

* 97、【反爬虫项目】数据监控模块--任务监控--实时链路流量转发后台逻辑

* 98、【反爬虫项目】数据监控模块--任务监控--监控数据定时备份逻辑

* 99、【反爬虫项目】数据监控模块--大阶段整体总结

* 100、【反爬虫项目】数据实时计算模块--第五阶段课程目标

* 101、【反爬虫项目】数据实时计算模块--功能描述和需求分析

* 102、【反爬虫项目】数据实时计算模块--驱动类代码实现

* 103、【反爬虫项目】数据实时计算模块--消费kafka数据并自己维护offset

* 104、【反爬虫项目】数据实时计算模块--数据拆分和封装

* 105、【反爬虫项目】数据实时计算模块--数据库规则加载

* 数据实时计算模块/

* 106、【反爬虫项目】数据实时计算模块--指标统计--ip段访问量

* 107、【反爬虫项目】数据实时计算模块--指标统计--ip地址访问量

* 108、【反爬虫项目】数据实时计算模块--指标统计--关键页面访问量

* 109、【反爬虫项目】数据实时计算模块--指标统计--userAgent切换量

* 110、【反爬虫项目】数据实时计算模块--指标统计--工具类抽取

* 111、【反爬虫项目】数据实时计算模块--指标统计--关键页面最小时间差

* 112、【反爬虫项目】数据实时计算模块--指标统计--关键页面最小时间差测试运行

* 113、【反爬虫项目】数据实时计算模块--指标统计--小于最短访问间隔的关键页面查询次数

* 114、【反爬虫项目】数据实时计算模块--指标统计--小于最短访问间隔的关键页面查询次数运行结果

* 115、【反爬虫项目】数据实时计算模块--指标统计--不同行程访问次数需求分析

* 116、【反爬虫项目】数据实时计算模块--指标统计--不同行程访问次数代码实现

* 117、【反爬虫项目】数据实时计算模块--指标统计--不同cookies访问次数需求分析

* 118、【反爬虫项目】数据实时计算模块--指标统计--不同cookies访问次数代码实现

* 119、【反爬虫项目】数据实时计算模块--指标统计--整体回顾

* 120、【反爬虫项目】数据实时计算模块--黑名单计算--第六阶段课程目标

* 121、【反爬虫项目】数据实时计算模块--黑名单计算--打分流程需求分析

* 122、【反爬虫项目】数据实时计算模块--黑名单计算--反爬虫计算主逻辑书写

* 123、【反爬虫项目】数据实时计算模块--黑名单计算--反爬虫计算指标获取封装方法

* 124、【反爬虫项目】数据实时计算模块--黑名单计算--反爬虫计算打分（上）

* 125、【反爬虫项目】数据实时计算模块--黑名单计算--反爬虫计算打分（中）

* 126、【反爬虫项目】数据实时计算模块--黑名单计算--反爬虫计算打分（下）

* 127、【反爬虫项目】数据实时计算模块--黑名单计算--反爬虫计算打分总结

* 128、【反爬虫项目】数据实时计算模块--剔除非黑名单数据

* 129、【反爬虫项目】数据实时计算模块--剔除非黑名单数据运行结果

* 130、【反爬虫项目】数据实时计算模块--黑名单结果存储redis

* 131、【反爬虫项目】数据实时计算模块--黑名单结果存储redis运行结果

* 132、【反爬虫项目】数据实时计算模块--黑名单结果存储redis总结

* 133、【反爬虫项目】数据实时计算模块--黑名单数据备份到hdfs

* 134、【反爬虫项目】数据实时计算模块--redis黑名单数据恢复

* 135、【反爬虫项目】数据实时计算模块--kafka数据备份到hdfs

* 136、【反爬虫项目】数据实时计算模块--spark监控

* 137、【反爬虫项目】数据实时计算模块--spark监控运行结果

* 138、【反爬虫项目】数据实时计算模块--整体流程回顾

* 离线报表统计/

* 139、【反爬虫项目】离线报表统计模块第七阶段课程目标

* 140、【反爬虫项目】离线报表统计模块--离线数据改装程序

* 141、【反爬虫项目】离线报表统计模块--数据加载和预处理

* 142、【反爬虫项目】离线报表统计模块--国内查询转化率

* 143、【反爬虫项目】离线报表统计模块--国际查询转化率

* 144、【反爬虫项目】离线报表统计模块--国内国际旅客信息转化率

* 145、【反爬虫项目】离线报表统计模块--用户转化率转化率

* 146、【反爬虫项目】离线报表统计模块--国际国内单双程爬去频次

* 147、【反爬虫项目】离线报表统计模块--查定比和流量统计

* 148、【反爬虫项目】离线报表统计模块--离线指标统计总结

云计算大数据核心项目课程