针对目前很多经过培训或自学后任就业困难、薪资低,以及刚入行IT行业1-3年的初级程序员,薪资提升慢或者难以提升的现状,传智播客向全行业重磅推出“大数据精英进阶课

*   阶段一 数据-数据中台/

  *   第一章 大数据-数据中台/

    *   1-第一章 初识数据中台/

      *   1.数据中台课程大纲概述

      *   2.数据中台概述和历史来源

      *   3.从数据中台故事了解数据中台真正解决的问题

      *   4.数据中台需要具备的能力

      *   5.数据中台大数据架构选型

      *   6.数据质量管理ApacheGriffin概述

      *   7.通过讲解Griffin安装熟悉大数据组件与Griffin的关系

      *   8.Griffin软件详解+版本区别带来的功能差异

      *   9.数据质量监控Hive数据

      *   10.数据质量监控任务调度与指标度量看板

      *   11.数据质量监控实时数据kafka任务与日志查看

      *   12.数据中台第一章总结(day01总结)

    *   第二章 数据治理Atlas/

      *   1.课程目标+数据治理概述

      *   2.数据治理分类+数据治理工具

      *   3.atlas安装与导入样本数据说明

      *   4.atlas高可用与atlas架构

      *   5.atlas基本搜索操作

      *   6.atlas高阶搜索(一)

      *   7.atlas高阶搜索(二)mp4

      *   8.atlas高阶操作(三)

      *   9.词汇与分类(需先导入数据再测试)

      *   10.类型系统与总结

    *   第三章 元数据管理/

      *   1.课程目标+业务元数据概述

      *   2.元数据与数据分类关联关系

      *   3.数据中台与元数据管理

      *   4.数据质量内容与质量流程

      *   5.atlas业务元数据管理

      *   6.atlas中的hive数据模型

      *   7.atlas集成hive hook

      *   8.血缘关系与hive元数据导入

      *   9.atlas集成sqoop元数据

      *   10.atlas集成hbase元数据

      *   11.atlas集成kafka元数据

      *   12.数据生命周期管理概述与流程

      *   13.falcon简介与工作方式

      *   14.falcon原理与任务调度

      *   15.atlas集成falcon元数据

    *   第四章 数据中台企业应用/

      *   1.数据中台第四天课程目标与atlas安全SSL和服务认证

      *   2.安全认证JAAS认证与spengo的http认证和客户端认证

      *   3.atlas认证方式详细讲解

      *   4.atlas授权模型和简单授权者

*   阶段二 大数据运维课/

  *   第一章 大数据运维课程/

    *   大数据运维课程介绍/

      *   01-01课程学习目标

      *   01-02-大数据运维岗位简介2

      *   01-03-为什么要学习这门课程

      *   01-04-岗位要求的技能栈

      *   01-05-课程学习的内容和方式

    *   运维相关概念介绍/

      *   00-前言

      *   01-01-01-塔式服务器介绍

      *   01-01-02-机架服务器

      *   01-01-03-云服务器

      *   01-02-机柜和机房的概念

      *   01-03-交换机

      *   01-04-01-CPU性能指标

      *   01-04-02-内存相关指标

      *   01-04-03-硬盘相关指标以及最终硬件配置的选择

      *   01-05-第一章总结

      *   02-01-01-磁盘规划-普通模式&JBOD模式

      *   02-01-02-RAID0

      *   02-01-03-RAID1

      *   02-01-04-RAID01&RAID10

      *   02-01-05-其他RAID和最终磁盘方案的选择

      *   02-01-磁盘规划-普通模式&JBOD

      *   02-02-网络规划&第二章总结

      *   03-01-域名

      *   03-02-域名为何要备案

      *   03-03-HTTPS&第三章总结

      *   04-01-预发布环境

      *   04-02-上线流程

      *   04-03-自动化CICD&第四章总结

      *   05-01-缓存

      *   05-02-消息队列

      *   05-03-负载均衡&第五章总结

      *   06-高可用的概念

      *   07-微服务的概念

      *   08-结语

    *   云平台/

      *   01-01-云平台的概念

      *   01-02-云平台的分类

      *   01-03-主流公有云平台有哪些

      *   01-04-三种云服务的概念

      *   01-05-公有云对于企业或者个人的意思是什么

      *   02-阿里云介绍

      *   03-01-01-前置概念-地域

      *   03-01-02-前置概念-可用区

      *   03-01-03-前置概念-网络类型

      *   03-01-04-前置概念-安全组

      *   03-02-云服务器-阿里云上的云监控介绍

      *   03-02-云服务器-创建1-实例基本设置

      *   03-02-云服务器-创建2-网络和安全组设置

      *   03-02-云服务器-创建3-系统设置和分组设置

      *   03-02-云服务器-创建4-远程连接云服务器

      *   03-03-云数据库RDS

      *   03-04-云上NoSQL(其他云数据库)

      *   03-05-云上对象存储OSS

      *   04-其他服务的概念介绍

      *   05-EMR中的Kafka和独立购买的Kafka服务有什么区别吗

      *   06-AWS介绍

      *   07-总结

    *   Grafana/

      *   01-Grafana简介

      *   02-时序的概念

      *   03-Grafana安装

      *   04-配置数据源

      *   05-01-导入仪表板

      *   05-02-01-创建仪表板和图形详细配置1之查询配置

      *   05-02-02-可视化的详细配置和其他图表配置细节

      *   05-03-补充-仪表板变量

      *   05-04-丰富仪表板

      *   06-01-其他功能介绍

      *   07-用户-权限的管理

    *   zabbix监控大数据集群/

      *   01-01-课程目的&Hadoop中的监控数据来源介绍

      *   01-02-kafka的数据来源

      *   03-01-为大数据主机安装zabbix-agent并在页面中配置

      *   03-02-针对HTTP形式的JMX接口的数据采集

      *   03-03-非HTTP形式的Kafka监控使用zabbix自带的jmx采集功能

    *   zabbix/

      *   01-zabbix介绍

      *   02-zabbix安装

      *   03-01&02-基础设置和页面概览

      *   03-03-用户和用户组

      *   03-04-在其他机器单独安装zabbix-agent

      *   03-05-监控项-触发器-模板-应用集

      *   03-05-在zabbix-web-ui中添加刚刚安装agent的主机

      *   03-06-图形配置

      *   03-07-第三章小结

      *   04-01-02-问题事件和问题确认

      *   04-03-动作的概念和配置

      *   04-03-动作的概念和配置-origin

      *   04-04-报警媒介配置

      *   04-05-配置用户的报警媒介信息

      *   04-06&07-测试报警邮件的发送和恢复邮件的发送

      *   04-08-第四章总结

      *   05-01-监控项中配套的key(键值)

      *   05-02-监控项的详细配置

      *   05-03-触发器的详细配置

      *   05-04-模板的配置和创建

      *   05-05-权限管控的回顾和第五章总结

      *   06-01&02-准备java代码和python脚本

      *   06-03-用户自定义key的配置

      *   06-04-在页面中配置监控项来使用自定义的key

      *   06-05&06定义触发器和测试报警

      *   06-06-课程总结

    *   大数据基础环境准备和集群部署/

      *   01-集群规划

      *   02-01-常见操作系统

      *   02-02-节点创建-01-VMWARE网络设置

      *   02-02-节点创建-02-VMWARE创建虚拟机

      *   02-02-节点创建-03-基于堡垒机复制出其它节点

      *   02-02-节点创建-04-定制节点硬件添加硬盘和修改内存

      *   02-02-节点创建-05-什么是堡垒机

      *   02-03-01-配置节点IP

      *   02-03-02-配置主机名和主机名映射和FQDN

      *   02-03-03-磁盘挂载和格式化

      *   02-03-04-创建用户用户组和权限讲解

      *   02-03-05-包管理工具RPM和YUM

      *   02-03-06-如何关闭IPv6

      *   03-01-01-DNS介绍

      *   03-01-02-DNS记录的类型

      *   03-01-03-企业中DNS服务器在大规模集群中的应用

      *   03-01-04-自行搭建DNS服务

      *   03-02-01-防火墙介绍

      *   03-02-02-企业中防火墙的实施情况

      *   03-02-03-Linux自带防火墙Firewalld的简单操作

      *   03-02-04-SELinux

      *   03-03-01-时间同步的概念

      *   03-03-02-配置NTP时间同步

      *   03-04-SSH免密登录的配置和原理

      *   03-05-FTP和SFTP

      *   04-01-JDK部署和软链接硬链接

      *   04-02-Hadoop部署

      *   05-Part1总结

*   阶段三 基于AWS的云上数仓构建/

  *   第一章 基于AWS的云上数仓构建/

    *   第一章/

      *   00-课程学习目标和前置技能需求

      *   1.1-1.2-云平台的概念简介

      *   1.3-两种云平台的分类

      *   1.4-主流的公有云平台有哪些

      *   1.5-云上的3种常见服务类型

      *   1.6-第一章总结

    *   第二章/

      *   2.1.1-IaaS服务-EC2介绍

      *   2.1.2-IaaS层-VPC介绍

      *   2.1.3-IaaS层-Direct Connect服务

      *   2.2.1-PaaS层-S3简介

      *   2.2.2-2.2.4-PaaS层其它常见服务介绍

      *   2.3.1-SaaS层-RDS介绍

      *   2.3.2-SaaS层-DynamoDB介绍

      *   2.3.3-SaaS层-Redshift介绍

      *   2.3.4-SaaS层-AWS Glue介绍

      *   2.3.5-SaaS层-AWS EMR介绍

      *   2.3.6-SaaS层-Kinesis介绍和第二章总结

    *   第三章/

      *   3.1-前期准备-AWS账户

      *   3.2-前期准备-AWS编程访问密钥对

      *   3.3-前期准备-AWS CLI 配置

      *   3.4-前期准备-准备安全组

      *   3.5-前期准备-准备S3存储桶

      *   3.6-前期准备-准备VPC终端节点

      *   3.7-前期准备-项目架构介绍和第三章简单总结

    *   第四章/

      *   4.1and4.2-RDS概念回顾和创建

      *   4.3-连接RDS

      *   4.4-修改RDS的参数

    *   第五章/

      *   5.1-5.2-Glue-Glue的概念和执行原理介绍

      *   5.3.1-Glue-元数据目录-手动添加csv文件的元数据表

      *   5.3.2-1-Glue-元数据目录-爬网程序添加CSV文件元数据表

      *   5.3.2-2-Glue-元数据目录-爬网程序添加RDS表

      *   5.3.3-1-Glue-元数据目录-内置分类器概念

      *   5.3.3-2-Glue-元数据目录-自定义CSV分类器

      *   5.3.3-3-Glue-元数据目录-自定义JSON分类器

      *   5.4.1-Glue-ETL测试任务CSV转JSON

      *   5.4.2-2-Glue-ETL测试任务2-将结果写入到RDS

      *   5.4.2-Glue-ETL测试任务2-自定义数据处理逻辑

      *   5.5.1-Glue-工作流程的概念和JOB1和2的创建

      *   5.5.2-Glue-工作流程的创建和运行

    *   第六章/

      *   6.1-EMR-概念回顾

      *   6.2-EMR-EMR在课程中的定位

      *   6.3.1-EMR-详细讲解EMR集群的创建和细节

      *   6.3.2-EMR-集群配置参数的使用方法

      *   6.3.3-EMR-创建步骤运行集群并提交JOB

      *   6.4-EMR-第六章总结

    *   第七章/

      *   7.1-7.2-Redshift-概念回顾和特点

      *   7.3-Redshift-IAM角色创建和集群创建详解

      *   7.4-Redshift-加载示例数据体验

    *   第八章/

      *   8.1.1-Redshift-数据仓库架构概述

      *   8.1.2-Redshift-性能概述

      *   8.1.3-Redshift-列式存储概述

      *   8.1.4-Redshift-内部组件和功能概览

      *   8.2-Redshift-数据库常用日常操作

      *   8.3.1-Redshift-排序键

      *   8.3.2-Redshift-分配方式(分配键)

      *   8.3.3-1-Redshift最佳实践案例-步骤1-加载数据

      *   8.3.3-2-Redshift最佳实践案例-步骤2-记录系统性能信息

      *   8.3.3-3-Redshift最佳实践案例-步骤3-选择排序键

      *   8.3.3-4-Redshift最佳实践案例-步骤4-选择分配方式

      *   8.3.3-5-Redshift最佳实践案例-步骤5-审查压缩编码和重新创建表

      *   8.3.3-6-Redshift最佳实践案例-步骤6和7-重新进行性能测试记录数据进行性能对比

      *   8.5.1-1-Redshift-DML-使用copy命令加载数据

      *   8.5.1-2-Redshift-DML-从远程SSH主机加载数据到Redshift表中

      *   8.5.2-暂存表

      *   8.5.3-事务回滚

      *   8.5.4-VACUUM命令

      *   8.5.5-UNLOAD命令

      *   8.5.6-拓展-Amazon Redshift Spectrum服务介绍

    *   第九章/

      *   9.1-数仓理论回顾-数据仓库的发展

      *   9.2-数仓理论回顾-名词解释和数仓维度设计模型

      *   9.3-数仓理论回顾-数仓开发中的3个基本层级

    *   第十章/

      *   10.1-业务开发-案例架构介绍

      *   10.2-业务开发-数据格式说明

      *   10.3.1-1-业务开发-ODS层开发说明

      *   10.3.1-2-业务开发-开发GlueETL任务并COPY数据到Redshift ODS层

      *   10.3.2-业务开发-开发DW层-准备日期维度数据

      *   10.3.3-1-业务开发-开发DW层-讲解DW层开发的需求

      *   10.3.3-2-业务开发-开发DW层-DW层开发EMR代码快速讲解

      *   10.3.3-3-业务开发-开发DW层-提交EMR任务

      *   10.3.4-10-ADS指标开发-指标10

      *   10.3.4-11-ADS指标开发-总结

      *   10.3.4-1-ADS指标开发-指标1

      *   10.3.4-2-ADS指标开发-指标2

      *   10.3.4-3-ADS指标开发-指标3

      *   10.3.4-4-ADS指标开发-指标4

      *   10.3.4-5-ADS指标开发-指标5

      *   10.3.4-6-ADS指标开发-指标6

      *   10.3.4-7-ADS指标开发-指标7

      *   10.3.4-8-ADS指标开发-指标8

      *   10.3.4-9-ADS指标开发-指标9

      *   10.4-ODS层开发-Glue代码单独讲解

      *   10.5-DW层开发-EMR代码单独讲解

    *   第十一章/

      *   11.1-SuperSet-简介和安装

      *   11.3-SuperSet-建立到Redshift的数据库链接

      *   11.4.10-SuperSet-指标8和指标9和指标10的可视化

      *   11.4.1-SuperSet-指标1可视化

      *   11.4.3-SuperSet-指标2可视化

      *   11.4.4-SuperSet-指标3可视化和lable设置

      *   11.4.6-SuperSet-指标4和指标5的可视化

      *   11.4.8-SuperSet-指标6和指标7的可视化

      *   11.5.1-BI开发-指标8的重新分析

      *   11.5.2-BI开发-基于BI完成3个数据探索需求和BI总结

    *   第十二章/

      *   12.1-12.2-QuickSight介绍和注册

      *   12.3-1-QuickSight添加数据源

      *   12.3-2-QuickSight-指标9可视化操作

      *   12.3-3-QuickSight-数据探索的简单演示和总结

*   阶段四 数据湖/

  *   第一章 数据湖/

    *   数据湖概念/

      *   00-课程目标

      *   01-1-1-企业的数据困扰

      *   01-1-2-补充-结构化-半结构化-非结构化数据

      *   01-2-数据湖的概念

      *   01-3-数据湖-数仓-数据集市的区别

    *   数据湖理论/

      *   02-1-写时模式和读时模式

      *   02-2-3种常见的数据湖实现方案

      *   02-3-数据湖对企业的价值

      *   02-4-数据湖概念的总结

      *   02-5-数据湖的4个设计原则

    *   数据处理、数据应用的几种架构/

      *   03-Lambda架构的简单介绍

    *   数据湖基于Hadoop、Spark的实现/

      *   04-数据湖的核心以及和普通大数据分析平台的不同

    *   Delta Lake - 数据湖核心的增强/

      *   05-1-DeltaLake的简介和重点特性解读

      *   05-2-DeltaLake的使用形式

    *   Delta Lake - Quickstart/

      *   06-1-DeltaLake创建表-读取表-覆盖表操作

      *   06-2-DeltaLake有条件更新和合并操作

      *   06-3-DeltaLake的数据版本控制

      *   06-4-DeltaLake的事务日志

    *   Delta Lake 操作/

      *   07-1-DeltaLake表分区和追加

      *   07-2-DeltaLake-Schema验证

      *   07-3-DeltaLake-更新和删除对Parquet数据文件的影响

      *   07-4-DeltaLake-vacuum方法

      *   07-5-DeltaLake-表常用工具和阶段总结

    *   Delta Lake 理论/

      *   08-1-DeltaLake-事务日志概念回顾

      *   08-2-DeltaLake-Schema演化相关概念回顾

      *   08-3-DeltaLake-最佳实践和总结

    *   企业数据湖应用案例分析/

      *   09-1-案例需求分析

      *   09-2-1-基础数据(中间数据)的准备

      *   09-2-2-基础数据增加新列

      *   09-2-3-统计每小时TOP10热门查询关键词

      *   09-2-4-统计全天热门TOP100查询关键词

      *   09-2-5-导出数据为普通parquet文件

      *   09-3-第九章总结

    *   基于AWS的云上数据湖实现方案介绍/

      *   10-1-1云平台的基础概念

      *   10-1-2-两类云平台和主流公有云平台介绍

      *   10-1-3-IaaS-PaaS-SaaS的概念

      *   10-1-4-云平台对企业的意义

      *   10-2-1-AWS-S3简介

      *   10-2-2-AWS-Athena分析框架简介

      *   10-2-3-AWS-EMR-集群模式介绍

      *   10-2-4-AWS-EMR-步骤运行模式介绍

      *   10-2-5-AWS-Glue-ETl-简单介绍

      *   10-2-6-AWS-其它辅助工具介绍和课程总结

*   阶段五 大数据数据挖掘/

  *   第一章 SparkMllib数据挖掘+SparkGraphX/

    *   1-SparkMllib机器学习理论基础详解/

      *   01-机器学习和大数据的区别(一)

      *   02-机器学习和大数据的区别和联系(二)

      *   03-机器学习和大数据的区别和联系(三)

      *   04-人工智能和机器学习的区别

      *   05-数据分析和数据挖掘联系

      *   06-什么是机器学习问题

      *   07-基于规则的学习和基于模型的学习方式

      *   08-机器学习数据集概述1

      *   09-机器学习数据集概述2

      *   10-机器学习数据集概述3

      *   11-机器学习问题分类

      *   12-机器学习三要素强化

      *   13-构建机器学习模型的流程

      *   14-模型选择

      *   15-交叉验证及经验和结构风险

    *   2-SparkMllib库特征工程基础与实战(一)/

      *   01-SparkMllib的功能

      *   2-SparkMllib的版本

      *   3-SparkMllib架构

      *   4-环境搭建及RDD、DF、DS的转换实践

      *   5-如何利用SparkMllib构建机器学习推荐架构

      *   6.SparkMllib算法分类及应用场景

      *   7-SparkMllib基础数据类型-localvector

      *   8-SparkMllib基础数据类型-labelpoint

      *   9.SparkMllib基础数据类型-libsvm数据读取

      *   10.SparkMllib基础数据类型-localmatrix

      *   11.SparkMllib基础数据类型-分布式行矩阵和行索引矩阵

      *   12.SparkMllib基础数据类型-分块矩阵

      *   13.SparkMllib均值和方差

      *   14-SparkMllib相关系数

      *   15-SparkMllib假设检验的卡方验证

      *   16-SparkMllib假设检验和随机数的产生

      *   17-特征提取tf-ifd

      *   18-特征提取-word2vec实践

      *   19-特征提取CountVector

    *   3-SparkMllib库特征工程基础与实战(二)/

      *   20-特征转化的二值化操作

      *   21-特征转换-PCA操作

      *   22-特征转换-类别型数据和数值型数据转换

      *   23-特征转换-OneHot编码方式

      *   24-特征转换-VectorIndexer转换操作

      *   25-正则项

      *   26-数值型数据处理的方法

      *   27-Bucketizer分箱

      *   28-ElementWise与SQLTransform实践

      *   29-特征转换VectorAssemble

      *   30-特征转换-QuantileDiscretizer

      *   31-特征选择VectorSlicer

      *   32-RFormula和卡方验证选择特征方法

      *   33-卡方验证案例补充

      *   36-案例实践2-Iris统计初步实践

      *   37-案例实践2-Iris的rdd相关系数实践

      *   38-案例实践2-iris的Dataframe数据统计

      *   39-案例实践2-iris的SParkMllib特征工程实践

    *   4-SparkMllib决策树算法基础与实战/

      *   1-了解什么是决策树

      *   2.基于规则建树

      *   3-信息熵的理解

      *   4-ID3算法步骤详解

      *   5-ID3算法举例和C4.5算法改进

      *   6-决策树的剪枝方式

      *   7-电商购买数据集ID3算法对比实践

      *   8-Cart树的回归树原理理解

      *   9-Cart树算法案例讲解

      *   10-Cart分类树原理及Gini系数

      *   11-Cart分类树的案例

      *   12-SparkMllib实战libsvm数据建模

      *   13-SparkMl实战libsvm数据全流程讲解实战

      *   14-SparkMllib相亲数据建模分析

      *   15-SparkMllib实战iris鸢尾花实战

      *   16-SparkMl实战Iris特征工程及建模实战1

    *   5-SparkMllib高级模块与线性回归基础及实战/

      *   1-SparkMllib的pipeline简介

      *   2-Dataframe组件

      *   3-Pipeline原理

      *   4-通过set方法和ParamMap方法赋值超参数的选项

      *   5-通过pipeline完成案例的代码编写

      *   6-如何对模型选择与优化

      *   7-超参数的网格搜索

      *   8-简单交叉验证及模型选择

      *   9-简单线性回归

      *   10-最小二乘法解决简单线性回归原理

      *   11-多元线性回归简介

      *   12-最小二乘推导补充(补充)

      *   13-线性回归的变体及各适用场景

      *   14-SparkMl实战脂肪数据集的案例

      *   15-SparkMl实战运输时间的预测分析

      *   16-SparkMllib基于RDD结构实战线性回归实例

      *   16-SparkMl实战libsvm数据的形式

      *   17-Sparkml完成房价预测分析实战

    *   6-SparkMllib聚类算法基础与实战/

      *   1-什么是聚类

      *   2-关于多种距离的度量简介

      *   3-聚类算法核心思想

      *   4-KMeans的举例

      *   5-Kmens算法性能指标分析

      *   6-KMeans特点及注意事项

      *   7-SparkMLIB实战KMEans算法

      *   8-SparkMLLIB实现药品数据得简单聚类

      *   9-SparkMl实现基本数据的聚类分析实战

      *   10-SparkMl和parkSql实现经纬度数据聚类分析实战

      *   11-k-medoids了解

      *   12-其他聚类思路-层次聚类方法

      *   13-基于密度的聚类DBSCAN

      *   14-GMM模型原理

      *   15-聚类算法的总结:

      *   16-SparkMllib实现对于层次聚类的分析

      *   17-SparkMllib完成对于GMM高斯混合模型实践分析

      *   18-SparkLDA实现了主题的提取实战

      *   19-SparkML实现IRis鸢尾花的聚类算法实战

    *   7-SparkGraphX理论基础与实战/

      *   1-图基本概念以及图计算应用

      *   2-SparkGraphX简介

      *   3-SparkGraphX图算法

      *   4-SparkGraphX抽象是RDPG---弹性分布式属性图

      *   5-SparkGraphX架构层面及存储方式简介

      *   6-SparkGraphX定义顶点操作

      *   7-SparkGraphX构件图及查询的操作

      *   8-图的基本数据结构

      *   9-图的类型和图的存储方式简介

      *   10-构建图的方法原理及源码了解创建过程

      *   11-构建图的操作代码

      *   12-社交网络数据的创建部分代码实战

      *   13-图的基本信息--顶点、边、入度、出度

      *   14-图的转换操作:mapVertices、mapEdges、mapTriplet

      *   15-图的结构操作:reverse、subgraph、mask、groupGraph

      *   16-图的关联操作

      *   17-图的聚合以及图的操作API总结

    *   8-SparkGraphX与SparkMllib综合实战/

      *   1-PageRank算法的基本假设和理解

      *   2-PageRank算法思想

      *   3-PageRank算法深入

      *   4-SparkGraphX通过社交网络数据完成重要节点的选择

      *   5-通过wiki数据达到网页重要性的pagerank度量

      *   6-通过PageRank算法得到网页排名的重要性

      *   7-广度优先遍历

      *   8-SparkGrphX实现最短路径

      *   9-连通图和强联通图

      *   10-SparkGraphx实战三角关系网络发现

      *   11-SVD++原理

      *   12-SVD++实战推荐算法预测

*   阶段六 大数据-今日指数项目/

  *   第一章 大数据-今日指数/

    *   day01/

      *   1.课程大纲

      *   2.课程安排

      *   3.证券业务知识介绍-1

      *   4.证券业务知识介绍-2

      *   5.业务模块和UI介绍

      *   6.需求-数据源接口文档介绍

      *   7.需求-接口文档(流处理和web)

      *   8.业务功能-性能和存储规模介绍

      *   9.架构设计-平台规划

      *   10.总体架构介绍-1

      *   11.总体架构介绍-2

      *   12.总体架构介绍-预警

      *   13.总体技术架构回顾

      *   14.技术选型

      *   15.数据流程介绍

      *   16.项目实施介绍

      *   17.数据源接口文档介绍

      *   18.apache-avro介绍

      *   19.定义avro约束文件

      *   20.avro测试序列化

      *   21.avro测试反序列化

      *   22.深市数据采集-客户端代码开发-1

      *   23.深市数据采集-客户端代码开发-2

      *   24.深市数据采集-客户端代码开发-3

      *   25.深市数据采集-客户端代码开发-4

      *   26.深市数据采集-客户端代码开发-5

      *   27.深市数据采集-kafka生产者对象

      *   28.深市数据采集-自定义kafka序列化对象

      *   29.数据生产测试

      *   30.课程总结

    *   day02/

      *   1.课程回顾

      *   2.课程安排

      *   3.沪市数据采集流程介绍

      *   4.沪市数据采集接口文档介绍

      *   5.数据采集流程介绍

      *   6.沪市行情数据采集-初始化参数

      *   7.沪市行情数据采集-ftp文件下载

      *   8.沪市行情数据采集-数据序列化

      *   9.flume自定source打包测试

      *   10.数据业务开发-业务介绍

      *   11.数据业务开发-模型设计介绍

      *   12.数据业务开发-创建库表和加载ODS表数据

      *   13.数据业务开发-沪市每日证券收盘明细表

      *   14.数据业务开发-板块对应关系表和深市日收盘表

      *   15.数据业务开发-沪深两市指数日收盘明细表

      *   16.数据业务开发-个股K线表

      *   17.数据业务开发-板块成分股

      *   18.数据业务开发-指数K线

      *   19.数据同步

      *   20.定时任务调度

      *   21.课程总结

    *   day03/

      *   1.课程回顾

      *   2.课程安排

      *   3.业务流程介绍

      *   4.环境搭建

      *   5.配置类和特殊时间点工具类

      *   6.HbaseUtil编写

      *   7.HbaseUtil测试

      *   8.RedisUtil开发和测试

      *   9.个股主类开发-设置检查点机制

      *   10.个股主类开发-kafka反序列化

      *   11.个股主类开发-反序列化测试

      *   12.个股主类开发-数据和时间过滤

      *   13.个股主类开发-数据过滤

      *   14.个股主类开发-数据转换

      *   15.个股主类业务开发-设置水位线

      *   16.Druid-应用场景

      *   17.Druid-体系结构介绍

      *   18.位图索引介绍

      *   19.Druid启动

      *   20.Druid测试-订单数据

      *   22.索引文件解析

      *   24.Druid-规范文件生成介绍

      *   25.JDBC使用

      *   26.Durid数据摄取-摄取HDFS和kafka数据

      *   27.课程总结

    *   day04/

      *   1.课程内容回顾

      *   2.课程安排

      *   3.个股业务开发介绍

      *   4.个股秒级业务开发-窗口函数处理

      *   5.个股秒级业务开发-封装list

      *   6.个股秒级业务测试

      *   7.个股秒级业务回顾

      *   8.个股分时业务-开发步骤和注意事项

      *   9.个股分时业务-获取最新分时行情数据

      *   10.个分时业务-数据分流

      *   11.个股分时业务-分时数据测试

      *   12.个股分时数据备份-设置hdfs参数

      *   13.个股分时数据备份-写入HDFS

      *   14.上午课程回顾

      *   15.个股涨跌幅业务开发

      *   16.指数业务开发-新建job

      *   17.指数业务开发-秒级行情

      *   18.指数业务开发-获取分时行情数据

      *   19.指数业务开发-分时行情数据写入

      *   20.指数业务开发-分时备份至HDFS

      *   21.指数业务开发-分时备份至HDFS测试

      *   22.课程回顾

    *   day05/

      *   1.课程回顾

      *   2.课程安排

      *   3.板块业务介绍

      *   4.板块业务介绍2

      *   5.板块秒级业务开发-初始化

      *   6.板块秒级业务开发-计算累计流通市值

      *   7.板块秒级业务-计算板块行情

      *   8.板块秒级业务-数据测试

      *   9.板块分时业务开发

      *   10.板块分时备份至HDFS

      *   11.K线业务介绍

      *   12.个股K线-数据初始化

      *   13.个股K线-数据转换

      *   14.个股K线-数据写入mysql

      *   15指数K线-数据初始化

      *   16.指数K线-数据插入

      *   17.板块K线-数据初始化

      *   18.板块K线-数据插入

      *   19.课程总结

    *   day06/

      *   1.课程回顾

      *   2.课程安排

      *   3.预警业务介绍

      *   4.预聚数据流程介绍

      *   5.CEP介绍

      *   6.铺垫正则表达式

      *   7.量词得使用

      *   8.过滤条件(简单和迭代)

      *   9.过滤条件(or和util)

      *   10.组合模式介绍

      *   11.组合模式Demo开发(连续组合和允许组合)

      *   12.案例-用户登陆失败

      *   13.案例-监控市场价格(环境准备)

      *   14.案例-监控市场价格-代码开发

      *   15.测试邮件发送

      *   16.实时预警-振幅业务开发(获取sql查询数据)

      *   17.实时预警-振幅告警开发

      *   18.实时预警-涨跌幅告警业务开发

      *   19.课程总结

    *   day07/

      *   1.课程回顾-1

      *   2.课程回顾-2

      *   3.课程回顾-3

      *   4.课程安排

      *   5.实时预警-换手率

      *   6.CEP原理讲解

      *   7.案例-超时订单数据处理

      *   8.案例-机架温控预警-第一次模式匹配-1

      *   9.案例-机架温控预警-获取第二次告警数据

      *   10.Kylin入门

      *   11.Kylin介绍和体系结构

      *   12.启动Kylin

      *   13.案例-根据日期对订单统计分析

      *   14.案例-根据渠道统计订单数据

      *   15.案例-根据日期-区域-产品统计订单数据

      *   16.Kylin的工作原理(Cube和Cuboid)

      *   17.离线预警-加载hive表中的个股数据

      *   18.离线预警-分时成交top10

      *   19.离线预警-振幅

      *   20.课程总结

    *   day08/

      *   1.课程回顾

      *   2.课程安排

      *   3.报表业务-多指标最值统计

      *   4.JDBC操作Kylin

      *   5.cube和segment的关系

      *   6.增量构建和全量构建的区别

      *   7.restApi触发增量构建

      *   8.增量构建-手动合并segment

      *   9.增量构建-删除segment

      *   10.碎片管理

      *   11.cuboid剪枝优化介绍

      *   12.cube-剪枝优化衍生维度介绍

      *   13.cube剪枝优化-聚合组介绍

      *   14.膨胀率测试-创建model

      *   15.膨胀率测试结果比较

      *   16.web技术架构演变

      *   17.web开发-查看接口文档

      *   18.web-搭建工程

      *   19.web-类介绍

      *   20.web-AOP测试

      *   21.整合mybatis

    *   day09/

      *   1.课程回顾

      *   2.实时大屏页面介绍

      *   3.ReidsConfig配置文件开发

      *   4.HbaseUtil区间查询

      *   5.通用连接对象

      *   6.国内指数查询

      *   7.板块查询

      *   8.涨幅数据查询

      *   9.涨停跌停数查询

      *   10.成交量对比

      *   11.涨跌幅度查询

      *   12.个股分时列表查询

      *   13.股票搜索(模糊查询)

      *   14.个股分时详情页面

      *   15.日K线数据查询

      *   16.日K线数据查询-2

      *   17.个股分时详情

      *   18.个股秒级行情

      *   19.个股描述

      *   20.定时任务-更细周K和月K

      *   21.定时任务回顾.

      *   22.课程回顾

    *   day10/

      *   1.课程回顾和安排

      *   2.部署介绍

      *   3.深市数据采集部署

      *   4.前后端本地联调

      *   5.web项目部署

      *   6.前端UI部署

      *   7.实时流处理项目打包

      *   8.环境准备

      *   9.实时流处理项目部署

      *   10.BI整合mysql-个股成交金额TOP10

      *   11.BI整合druid-今日指数top4(成交量)

      *   12.BI整合Kylin-还手率

      *   13.开发模式介绍

      *   14.课程总结-服务启动命令

      *   15.课程总结-总体技术架构

      *   16.课程总结-优化

      *   17.课程总结-项目介绍

      *   18.课程总结-自我介绍

      *   19.课程总结-jvm介绍

      *   20.课程总结-扩展

*   阶段七 工业大数据项目实战/

  *   第一章 大数据一站制造项目/

    *   第一章/

      *   1.一站制造第一章总体内容概述+学习目标

      *   2.工业互联网和制造业概述

      *   3.加油站和相关实施名词说明

      *   4.大数据在加油站领域的应用

      *   5.一站制造项目核心业务流程图

      *   6.一站制造项目架构和技术架构流程

      *   7.docker容器服务安装

      *   8.dcoker的linux命名空间

      *   9.关于虚拟网桥与虚拟网卡详细讲解

      *   10.docker网络的四种模式与bridge模式

      *   11.oracle安装与使用客户端访问

      *   12.docker安装hadoop+hive+sqoop+spark thrift server说明

      *   13.一站制造项目第一章总结

    *   第二章/

      *   1.第二章数仓建模与数据采集课程目标

      *   2.维度建模方法论

      *   3.一站制造数仓分层详细说明

      *   4.一站制造数仓简单回顾+业务系统和查看业务系统表

      *   5.全量数据和增量数据详细情况分析

      *   6.yarn的容量调度中设置appmaster可申请最大内存容量说明

      *   7.mapreduce运行时以uber模式运行+uber相关参数说明

      *   8.实现sqoop从oracle中导入单表数据到hdfs上

      *   9.sqoop导入数据解决数据导入增加问题+两种解决方案

      *   10.shell实现sqoop增量导入数据需求与分析

      *   11.全量和增量导入数据的脚本

    *   第三章/

      *   1.第二章数据采集重要内容回顾

      *   2.ODS&DWD层建设课程目标与项目规范

      *   3.ODS层分别使用sparksql&hive引擎创建hvie表

      *   4.ODS层自动创建表实现思路分析

      *   5.实现ODS层自动创建表功能的准备工作

      *   6.实现ODS层创建表工具类分析

      *   7实现ODS层创建表读取全量和增量表工具类实现

      *   8.实现ODS层得到oracle和hive连接工具类mp4

      *   9.查询出oracle中表对应的元数据信息和创建列对象

      *   10.编写表对象和表对象中三个特殊方法(给列对象集合添加列对象、根据列名获得列对象、得到所有列名集合)

      *   11.编写从oracle中查询出表的元数据信息(包含列的元数据信息)工具类

      *   12.oracle获得元数据信息工具类测试

      *   13.使用动态拼接sql的方式创建表

      *   14.ods层自动创建表过程详细分析

      *   15.性能监控工具jprofile

      *   16.简历编写方法与复习思路

    *   第四章/

      *   1.数仓ODS层&DWD层建设总结回顾

      *   2.数仓维度层建设课程目标与维度建模理论回顾

      *   3.实现地理区域查询省和市和区和乡镇数据建模+mr执行查询的流程分析

      *   4.mapreduce执行过程和spark逻辑和物理执行计划

      *   5.地理区域维度建模实现

      *   6.日期维度建模

      *   7.传入年份参数得到当年的所有的日期的id集合

      *   8.日期维度生成

      *   9.组织机构维度+服务网点维度+仓库维度

      *   10油站维度建模

      *   11.扩展维度

    *   第五章/

      *   1.解决笛卡尔积中存在两表关联无条件

      *   2.第四章维度层建设重点内容回顾

      *   3.DWB事实指标层建设简介

      *   4.呼叫中心事实表建模(上)

      *   5.呼叫中心事实表建模(下)

      *   6.呼叫中心事实表建表和加载数据

      *   7.油站事实表建模与新增油站计算方式

      *   8.工单事实表建模

      *   9.安装事实表建模

      *   10.维修事实表建模

      *   11.扩展指标事实表

      *   12.客户回访指标分析

      *   13.任务调度编排

    *   第六章/

      *   1.数仓DWB事实指标层重点内容回顾

      *   2.服务类型中工单主题建模

      *   3.服务类型中维修主题建模

      *   4.服务类型中回访主题建模

      *   5.服务类型中派单主题建模

      *   6.服务类型中费用主题建模

      *   7.客户分类中客户主题建模

      *   8.保内良品和保内不良品核销建模

      *   9.第三方服务商数据说明

      *   10.运营部存储的部门或新业务需求数据+hbase的rowkey设计扩展

      *   11.运营部主题简介+数仓分层对比阿里数仓分层

      *   12一站制造项目总结(上)

      *   13.一站制造项目总结(下)

*   阶段八 大数据-星途车联网/

  *   第一章 大数据-星途车联网/

    *   day01/

      *   01.【星途车联网】day01-项目的内容介绍及章节规划

      *   02.【星途车联网】day01-车联网行业介绍

      *   03.【星途车联网】day01-车联网项目探索和发现

      *   04.【星途车联网】day01-项目整体架构

      *   05.【星途车联网】day01-项目技术架构及逻辑架构图

      *   06.【星途车联网】day01-数据流转过程分析

      *   07.【星途车联网】day01-服务器及数据量的计算和数据格式分析

      *   08.【星途车联网】day01-项目环境的搭建

      *   09.【星途车联网】day01-解析简单的json字符串

      *   10.【星途车联网】day01-解析复杂的json字符串

      *   11.【星途车联网】day01-解析复杂的json字符串优化后的写法

      *   12.【星途车联网】day01-知识点总结

    *   day02/

      *   01.【星途车联网】day02-知识点回顾

      *   02.【星途车联网】day02-分析数据采集上报过程以及编写kafka的生产者和消费者代码

      *   03.【星途车联网】day02-流式处理模块的初始化

      *   04.【星途车联网】day02-梳理实时ETL开发的流程步骤

      *   05.【星途车联网】day02-编写时间处理的工具类

      *   06.【星途车联网】day02-工具类的编写

      *   07.【星途车联网】day02-json解析工具类的编写

      *   08.【星途车联网】day02-flink流式处理程序消费kafka数据测试

      *   09.【星途车联网】day02-对流式计算程序的任务进行封装公共类

      *   10.【星途车联网】day02-etl任务的设计及反压的原理介绍

      *   11.【星途车联网】day02-知识点总结

    *   day03/

      *   01.【星途车联网】day03-知识点回顾

      *   02.【星途车联网】day03-消费kafka数据过滤出来正常数据和异常数据

      *   03.【星途车联网】day03-StreamingFileSink的介绍

      *   04.【星途车联网】day03-StreamingFileSink的使用案例

      *   05.【星途车联网】day03-使用StreamingFileSink的将正常和异常数据分别写入到hdfs中

      *   06.【星途车联网】day03-hive创建分区映射hdfs数据所在目录加载到hive表中

      *   07.【星途车联网】day03-回顾rowkey的设计原则和设计方法

      *   08.【星途车联网】day03-将数据写入到hbase的流程分析

      *   09.【星途车联网】day03-将数据实时的写入到hbase中

      *   10.【星途车联网】day03-buffredmuator写入优化

      *   11.【星途车联网】day03-使用优化后的buffredmuator方案将数据实时写入到hbase表中

      *   12.【星途车联网】day03-buffredmuator源码分析

      *   13.【星途车联网】day03-知识点总结

    *   day04/

      *   01.【星途车联网】day04-知识点回顾

      *   02.【星途车联网】day04-回顾hbase的预写日志

      *   03.【星途车联网】day04-回顾hbase的编码和压缩

      *   04.【星途车联网】day04-Phoenix的介绍

      *   05.【星途车联网】day04-Phoenix的常用操作

      *   06.【星途车联网】day04-hbase的二级索引介绍

      *   07.【星途车联网】day04-车辆明细表数据的实时写入

      *   08.【星途车联网】day04-基于车辆明细表数据进行数据统计

      *   09.【星途车联网】day04-zepplin介绍和使用场景

      *   10.【星途车联网】day04-zepplinUI介绍

      *   11.【星途车联网】day04-zepplin与mysql和hive的整合案例

      *   12.【星途车联网】day04-zepplin集成Phoenix进行即席查询

      *   13.【星途车联网】day04-知识点总结

    *   day05/

      *   01.【星途车联网】day05-知识点回顾

      *   02.【星途车联网】day05-驾驶行程存储分层设计

      *   03.【星途车联网】day05-驾驶行程业务实现逻辑分析

      *   04.【星途车联网】day05-驾驶行程业务添加水印处理

      *   05.【星途车联网】day05-驾驶行程采样数据自定义窗口开发

      *   06.【星途车联网】day05-驾驶行程采样数据实时写入到hbase中

      *   07.【星途车联网】day05-驾驶行程数据处理分析

      *   08.【星途车联网】day05-驾驶行程数据自定义窗口开发

      *   09.【星途车联网】day05-驾驶行程数据实时写入到hbase

      *   10.【星途车联网】day05-驾驶行程数据离线同步到mysql数据库

      *   11.【星途车联网】day05-知识点总结

    *   day06/

      *   01.【星途车联网】day06-知识点回顾

      *   02.【星途车联网】day06-电子围栏的介绍和应用场景

      *   03.【星途车联网】day06-电子围栏的数据结构介绍

      *   04.【星途车联网】day06-电子围栏业务开发流程梳理

      *   05.【星途车联网】day06-电子围栏业务开发步骤编写

      *   06.【星途车联网】day06-将电子围栏规则应用到原始数据流

      *   07.【星途车联网】day07-测试两点之间距离的工具类

      *   08.【星途车联网】day07-将电子围栏规则与原始数据进行拉宽操作并测试

      *   09.【星途车联网】day07-分析电子围栏状态的切换逻辑

      *   10.【星途车联网】day07-实现电子围栏状态的切换逻辑并测试

      *   11.【星途车联网】day07-实现电子围栏分析结果写入到mysql并进行测试

      *   12.【星途车联网】day07-知识点总结

    *   day07/

      *   01.【星途车联网】day07-知识点回顾

      *   02.【星途车联网】day07-在线实时故障分析业务介绍

      *   03.【星途车联网】day07-表结构介绍及高德地图解决逆地理坐标问题

      *   04.【星途车联网】day07-在线实时异常告警分析流程

      *   05.【星途车联网】day07-异步io实现高德逆地理位置查询的逻辑梳理

      *   06.【星途车联网】day07-异步io实现高德逆地理位置查询并测试

      *   07.【星途车联网】day07-实现自定义窗口函数区分出来异常字段和正常指标字段

      *   08.【星途车联网】day07-将车辆基础信息数据应用到原始数据流流

      *   09.【星途车联网】day07-在线实时故障分析结果实时写入到数据库中

      *   10.【星途车联网】day07-知识点总结

    *   day08/

      *   01.【星途车联网】day08-知识点回顾

      *   02.【星途车联网】day08-自定义告警规则业务分析和数据存储

      *   03.【星途车联网】day08-存储介质mongodb的介绍

      *   04.【星途车联网】day08-mongodb服务的部署

      *   05.【星途车联网】day08-mongodb数据库及集合的常用操作

      *   06.【星途车联网】day08-mongodb高阶操作

      *   07.【星途车联网】day08-mongodb的索引介绍

      *   08.【星途车联网】day08-mongodb的高阶操作

      *   09.【星途车联网】day08-js实现mongodb的id自增操作

      *   10.【星途车联网】day08-基于地理位置的查询

      *   11.【星途车联网】day08-mongodb的客户端操作

      *   12.【星途车联网】day08-知识点总结

    *   day09/

      *   01.【星途车联网】day09-知识点回顾

      *   02.【星途车联网】day09-使用jdbc对mongodb的数据进行添加或更新

      *   03.【星途车联网】day09-使用jdbc对mongodb的数据进行删除及高级查询

      *   04.【星途车联网】day09-mongodb的副本集原理及演示

      *   05.【星途车联网】day09-自定义告警规则业务分析及相关表结构介绍

      *   06.【星途车联网】day09-自定义告警规则业务代码实现步骤分析

      *   07.【星途车联网】day09-自定义告警规则业务代码实现水印及自定义窗口操作

      *   08.【星途车联网】day09-加载自定义告警规则数据并进行广播

      *   09.【星途车联网】day09-梳理自定义告警规则应用到原始拉宽数据流的逻辑

      *   10.【星途车联网】day09-自定义规则计算表达式工具类

      *   11.【星途车联网】day09-知识点总结

    *   day10/

      *   01.【星途车联网】day10-知识点回顾

      *   02.【星途车联网】day10-将自定义告警规则应用到数据流拉宽分析结果模型数据

      *   03.【星途车联网】day10-分析数据写入到mongodb的逻辑

      *   04.【星途车联网】day10-分析数据写入到mongodb的实现

      *   05.【星途车联网】day10-分析数据写入到mongodb的测试

      *   06.【星途车联网】day10-离线指标分析业务介绍及课程目标

      *   07.【星途车联网】day10-jdbc六大对象介绍以及各自使用场景

      *   08.【星途车联网】day10-使用jdbcinputformat和jdbcoutformat案例演示

      *   09.【星途车联网】day10-知识点总结

    *   day11/

      *   01.【星途车联网】day11-知识点回顾

      *   02.【星途车联网】day11-编写数据汇总计算准备率实现逻辑

      *   03.【星途车联网】day11-编写数据汇总计算准备率写入到mysql表中

      *   04.【星途车联网】day11-多维度分析数据准备率写入到mysql表中

      *   05.【星途车联网】day11-自定义告警类型和告警状态统计分析

      *   06.【星途车联网】day11-车联网项目数仓分层

      *   07.【星途车联网】day11-车辆动态监测分析

      *   08.【星途车联网】day11-BI分析及介绍

      *   09.【星途车联网】day11-superset入门案例

      *   10.【星途车联网】day11-前端页面介绍

      *   11.【星途车联网】day11-知识点总结

    *   day12/

      *   01.【星途车联网】day12-知识点回顾

      *   02.【星途车联网】day12-回顾flink应用程序的部署方式以及flinkonyarn部署

      *   03.【星途车联网】day12-车联网任务分类的总结

      *   04.【星途车联网】day12-ds介绍及安装部署

      *   05.【星途车联网】day12-ds定义并调度任务

      *   06.【星途车联网】day12-ds基本使用和项目管理界面操作

      *   07.【星途车联网】day12-扩展了解充电桩业务

      *   08.【星途车联网】day12-项目总结1

      *   09.【星途车联网】day12-项目总结2

*   阶段九 BAT直通车/

  *   第一章 大数据-大厂面试题/

    *   阿里巴巴面试题/

      *   0.阿里巴巴大数据面试题学习目标

      *   1. 大表join小表报错怎么解决

      *   2. 自定义函数udf、udaf、udtf的区别

      *   3. hive的元数据保存方式有哪些,有什么特点

      *   4. 内部表与外部表的区别

      *   5. 为什么建议使用外部表

      *   6. insert into 与insert overwrite 的区别

      *   7. Hive的条件判断函数有哪些

      *   8. Hive表的特点

      *   9. spark提交job流程

      *   10. spark提交任务的时候--jars是什么意思

      *   11. Hadoop的Wordcount详解

      *   12. spark做过什么优化,原理是什么

      *   13. 反转链表

      *   14.实现堆 push pop min复杂度为O(1)

      *   15. 10G文件只有32M内存怎么判断相似数据

      *   16. Redis的数据结构

      *   17. 什么是分布式系统

      *   18. NOSQL为啥比SQL快

      *   19. B+ 树与B树的区别

      *   20. 输入ping ip后发生了什么

      *   21. 很多观测站的数据怎么用Hive读取并写入

      *   22. 元数据的理解、作用和影响

      *   23. 对MaxCompute的了解并与常见的大数据系统做对比

      *   24. Hadoop2.x做了哪些改动

      *   25. spark的shuffle过程

      *   26. JVM垃圾收集器

      *   27. shuffle过程中数据写入到哪个buffer

      *   28. Executor、core、task之间的关系

      *   29. hiveSQL累计求和

      *   30.说说arraylist、vector、linkedlist存储性能和特性

      *   31.treeset的特性

      *   32.给出二叉树列出先序、中序、后序遍历

      *   33.第二高的薪水

    *   百度面试题/

      *   1. spark缓存数据缓存到了哪里

      *   2. Linux常用命令

      *   3. 除了这些还有其他的哪些技术

      *   4. 自定义UDF、UDTF函数

      *   5. zookeeper选举过程

      *   6. 什么是脑裂

      *   7. hdfs数据写入报错,从三个方向解答

      *   8. hdfs的三副本怎么保持一致性

      *   9. mapper与reducer个数的指定

      *   11. hbase行键的设计原则

      *   12. HBASE的日志合并树是什么

      *   13. spark的WordCount

      *   14. kafka与传统消息队列的区别

      *   15. 简述平衡二叉树的插入删除操作

      *   16. JDK8的新特性

      *   17. 说说spark的RDD

      *   18. Combiner函数的使用发生在哪个阶段,怎么使用

      *   19. HBASE删除一条数据的过程

      *   20. hive数据倾斜的原因以及解决方法

      *   21. paxos的协议主要目的是什么

      *   22. Hadoop、spark、MPI的特点以及使用场景

      *   23. 解释TCP建立过程,并用函数解释交互过程

      *   24. 说一下异常

      *   25. kafka的message包含哪些信息

      *   26. kafka的数据存储在哪

      *   27. java的NIO介绍一下

      *   28.flume丢包问题

      *   29.不采用flume采集日志,用logger4j采集日志的优缺点

      *   30.hive笔试题

    *   滴滴面试题/

      *   今日目标

      *   1. 怎么保证多请求的顺序性

      *   2. 僵尸进程和孤儿进程

      *   3. fork函数的底层实现过程

      *   4. jvm内存布局

      *   5. 什么情况发生栈溢出

      *   6. 什么是双亲委派模型,以及优点

      *   7. 堆排序求TOPN

      *   8. 怎么解决过拟合问题

      *   9. L1和L2的正则区别

      *   10. yarn中的APPmaster挂掉了怎么办

      *   11. MapReduce慢的原因

      *   12. hdfs小文件优化方法

      *   13. hdfs的压缩算法和使用场景

      *   14.hive里面的几种排序特点

      *   15. hive底层与数据库交互原理

      *   16. hive如何进行权限控制

      *   17. hivesql笔试题

      *   18. application的并行度设置

      *   19.spark提交任务的参数

      *   20.spark中的数据倾斜有什么好的解决方案

      *   21. flink的组件有哪些

      *   22. 你们的flink集群规模有多大

      *   23.flink的基础编程模型是什么

      *   24. flink集群的角色有哪些,以及作用是什么

      *   25. 设计一个大型网站架构

      *   26. hbase的compaction用户和在什么时候触发

      *   27. 给定a、b2个大文件,匹配里面的URL

      *   28.每天百亿数据写入hbase,怎么保证写入

      *   29. 列举hbase的优化方法

      *   30.kafka怎么保证数据不丢失

    *   京东面试题/

      *   1. 二叉树的逐层打印

      *   2. 归并排序之java实现

      *   3. 一根绳子要少一个小时,怎么计算半个小时

      *   4. 快速排序java实现

      *   5. 1亿个数据找前1000条最大的数据

      *   6. 谈谈用MapReduce求topk

      *   7. mr和spark的shuffle区别

      *   8. hiveSQL的执行顺序

      *   9. 统计所有用户和活跃用户的个数以及年龄

      *   10. 统计10月用户第一次购买的商品信息

      *   11. rdd与dataset的区别

      *   12. Spark为什么分为transformation和action

      *   13. 将将scala的伴生对象

      *   14. 谈谈scala的隐式转换

      *   15. jobmanager在集群中扮演了什么角色

      *   16. flink里面slot和parallelism的区别

      *   17. flink分布式快照的原理是什么

      *   18.说说flink的序列化

      *   19. 用Linux命令查找指定内容的文件

      *   20. 说出几个git的常用命令

      *   21. kafka快的原因,零拷贝的原理

      *   22. 简单讲讲direct的设计思路

      *   23. 介绍一下flume的架构

      *   24. 用Linux命令对一个文件进行处理

      *   25. TCP的三次握手和四次挥手过程

      *   26. 怎么保证在kill-9的情况下数据不丢失

      *   27. 数据看看的锁有哪些

      *   28. URL和uri的区别

      *   29.sleep和yield的区别

      *   30.snn的工作机制

      *   31.运行异常和受检异常有什么不同

      *   32.flink和storm反压有什么不同

    *   美团面试题/

      *   0.美团大数据面试题学习目标

      *   1. 数仓命令规范

      *   2.拉链表的使用场景

      *   3. 数据库和数据仓库的区别

      *   4. 有什么维表

      *   5. 数据源有哪些

      *   6. 最大的表和数据量是多少

      *   7. 用什么调度工具

      *   8. 数仓数据抽取方法

      *   9. datax比sqoop快

      *   10. CDH集群搭建

      *   11. Redis和zookeeper的分布式锁

      *   12. zookeeper如何保持数据一致性

      *   13. 项目的解决方案及问题

      *   14. 流式计算和离线计算的选取

      *   15. OLAP引擎有哪些

      *   16. 谈谈对MPP数据库的了解

      *   17. 谈谈对Clickhouse的了解

      *   18. kylin数据库原理

      *   19. APP怎么对外提供服务的

      *   20. 缓慢变化维的处理方式有哪些

      *   21. datax存储数据遇到emoji表情报错该怎么解决

      *   22. 为什么要用到大数据平台

      *   23. 维度建模和范式建模的区别

      *   24. 从0-1构建数仓

      *   25. 数据模型如何构建

      *   26. 如何保证数据质量

      *   27. datax与sqoop的优缺点

      *   28. 集市层和公共层

      *   29. on 和 where的区别

      *   30. flink为什么要checkpoint机制

      *   31. flink如何保证Exactly_once的原理

      *   32. flink的背压机制

      *   33. spark和flink对比

      *   34. flink的join操作

    *   腾讯面试题/

      *   1.学习目标和分哪几个模块

      *   2.数组的子数组最大值代码实现

      *   3.递归算法反转字符串

      *   4. 冒泡排序代码实现

      *   5. 二叉树的java代码实现

      *   6. hdfs的操作命令

      *   7. 集群节点的上线和下线

      *   8.Hadoop的namenode宕机怎么办

      *   9.联邦的实现

      *   10.Hadoop的序列化和反序列化以及定义bean对象的步骤

      *   11.MapReduce的几种排序以及发生的阶段

      *   12.你们的数据量大概是多少

      *   13.讲讲你的优化方法

      *   14.hiveSQL怎么计算map个数

      *   15. 怎么查看hive的自带函数,以及使用命令

      *   16.hive命令操作

      *   17.hive支持哪些数据类型

      *   18.分区表解决需求

      *   19.hive自带函数split用法

      *   20.dataframe和rdd的区别

      *   21.spark的数据倾斜问题怎么解决

      *   22.spark的2种shuffle工作流程

      *   23.checkpoint的操作

      *   24.rdd的弹性表现在哪几点

      *   25.flink什么情况才会生成operator chain

      *   26.flink 的三层图指的是什么

      *   27.flink计算资源是如何调度的

      *   28.简述flink的数据抽象和交换过程

      *   29.简述flinkSQL是如何实现的

      *   30.kafka为什么这么快

      *   31.hbase和hive的区别

    *   网易面试题/

      *   1.本章面试题介绍

      *   2.N级台阶的递归算法实现

      *   3.大型网站在架构上应当考虑哪些问题

      *   4.你用过的前端优化技术有哪些

      *   5.领域模型、失血模型、贫血模型、充血模型

      *   6.海量数据统计前10个词

      *   7.二分查找法思想和实现

      *   8.判断一个单词里面的字母是否全都不同

      *   9.找回文素数代码实现

      *   10.如何配置安装一个Apache Hadoop

      *   11.Hadoop集群中有哪些进程

      *   12.描述MapReduce中shuffle阶段的工作流程

      *   13.hdfs的读和写流程

      *   14.Hadoop的几个默认端口号及其含义

      *   15.源码解析Hadoop中的recordreader和split以及block之间的关系

      *   16.举例2种hive的优化措施

      *   17.根据需求统计结果

      *   18.聊聊hive的索引

      *   19.spark提交作业流程

      *   20.stage,task和宽窄依赖

      *   21.spark的内存模型

      *   22.spark何时缓存数据

      *   23.sparkstreaming处理偏移量的管理方法

      *   24.spark中ML和MLLib的区别和联系

      *   25.spark如何自定义partitioner分区器

      *   26.flink相比传统sparkstreaming的区别

      *   27.说说flink中的窗口

      *   28.说说flink的内存管理是如何做的

      *   29.flink的延迟高,怎么解决这个问题

      *   30.hbase中的scan对象的setcache和setbatch方法的使用

      *   31.hbase的内部机制是什么

      *   32.如何提高hbase客户端的读写性能

      *   33.kafka生产数据后消息会发生偏移吗

    *   小米面试题/

      *   1.小米大数据面试题介绍

      *   2.针对排好序的数组进行去重操作代码实现

      *   3.有一个元素超过数组的半数以上,找到这个元素

      *   4.什么是XSS、什么是SQL注入、什么是CSRF攻击

      *   5.谈谈TDD的好处

      *   6.归并排序之Java实现

      *   7.给出5个数字12345的全排列

      *   8.怎么在海量数据中找出重复次数最多的一个

      *   9.根据日起计算多少天

      *   10.约瑟夫环

      *   11.Hadoop中有哪些重要的配置文件,作用是什么

      *   12.Hadoop实现join的几种方法

      *   13.MapReduce推测执行算法以及原理

      *   14.fileinputformat切片机制

      *   15.maptask的工作机制

      *   16.hive笔试题

      *   17.分组求前10名

      *   18.讲讲hive里面的jvm重用

      *   19.如何理解spark的RDD数据结构分区

      *   20.广播变量使用需要注意什么

      *   21.sparkstreaming的反压怎么处理

      *   22.spark On mesos中什么是粗粒度什么是细粒度以及优缺点

      *   23.spark中版本的意思,以及spark1.6.0数字代表什么意思

      *   24.spark技术有哪些组件,每个功能是什么

      *   25.介绍一下对unfied memory manager内存管理的理解

      *   26.jobmanager在集群启动中起到什么作用

      *   27.flink中的分布式快照机制如何实现

      *   28.hbase中rowfilter和bloomfilter的原理

      *   29.请说明kafka的消息投递保证机制

      *   30.协同过滤算法的底层实现原理

*   阶段十 大数据常见架构与设计-大厂架构/

  *   第一章 大数据-大厂架构/

    *   小米架构/

      *   00_目录和学习目标

      *   01_离线数据仓库架构

      *   02_维度数据建模

      *   03_联机分析处理

      *   04_OLAP分类和逻辑概念

      *   05_联机分析处理性能

      *   06_实时数仓与离线数仓的对比

      *   07_kappa流批一体架构介绍

      *   08_kappa流批一体架构流程的2个阶段

      *   09_离线架构v1.0

      *   10_混合流批一体架构v2.0

      *   11_实时kappa架构v3.0

      *   12_环境准备

      *   13_环境演示

      *   14_数仓案例架构

      *   15_案例维度同步和事实表拉宽处理

      *   16_案例明细数据进行汇总处理

      *   17_总结

    *   美团架构/

      *   00_目标和目录

      *   01_美团点评的挑战和解决方案

      *   02_离线数据仓库

      *   03_系统架构之迁移、层层转换、数据的冷热温

      *   04_划分维度表、事实表和调度系统

      *   05_系统监控

      *   06_准实时数仓

      *   07_实时数仓和离线数仓、准实时数仓的方案对比

      *   08_基于flink体系的实时数仓方案

      *   09_基于Mysql+Canal+kafka的CDC方案

      *   10_基于MySQL+FlinkCDC+FlinkTable

      *   11_分层体系

      *   12_环境的安装部署

      *   13_数据类型和连接器

      *   14_FileSystem连接器

      *   15_Kafka连接器

      *   16_FlinkStreaming SQL入门案例

      *   17_介绍综合案例的表结构和数据生成器

      *   18_执行代码生成表结构和数据

      *   19_创建ODS层数据库

      *   20_创建DWD层和DWS层数据表

      *   21_总结

    *   平安架构/

      *   00_学习目标

      *   01_离线数据仓库架构

      *   02_维度数据建模

      *   03_联机分析处理

      *   04_OLAP分类和逻辑概念

      *   05_联机分析处理性能

      *   06_实时数仓与离线数仓的对比

      *   07_Lambda流批混合架构

      *   08_Lambda架构概览

      *   09_Lambda三层架构

      *   10_Lambda架构常用技术选型

      *   11_平安整体架构模型

      *   12_平安大数据lambda架构的落地

      *   13_Lambda架构的案例需求和模块创建

      *   13_环境准备

      *   14_环境演示

      *   14_离线处理的公共模块导入

      *   15_离线批处理案例实现

      *   16_实时流处理案例实现

      *   17_总结