飞豹客 · 教程详情

大数据精英进阶课

体系课

20 人浏览发布 2026-06-09更新 2026-07-10

针对目前很多经过培训或自学后任就业困难、薪资低，以及刚入行IT行业1-3年的初级程序员，薪资提升慢或者难以提升的现状，传智播客向全行业重磅推出“大数据精英进阶课

* 阶段一数据-数据中台/

* 第一章大数据-数据中台/

* 1-第一章初识数据中台/

* 1.数据中台课程大纲概述

* 2.数据中台概述和历史来源

* 3.从数据中台故事了解数据中台真正解决的问题

* 4.数据中台需要具备的能力

* 5.数据中台大数据架构选型

* 6.数据质量管理ApacheGriffin概述

* 7.通过讲解Griffin安装熟悉大数据组件与Griffin的关系

* 8.Griffin软件详解+版本区别带来的功能差异

* 9.数据质量监控Hive数据

* 10.数据质量监控任务调度与指标度量看板

* 11.数据质量监控实时数据kafka任务与日志查看

* 12.数据中台第一章总结(day01总结)

* 第二章数据治理Atlas/

* 1.课程目标+数据治理概述

* 2.数据治理分类+数据治理工具

* 3.atlas安装与导入样本数据说明

* 4.atlas高可用与atlas架构

* 5.atlas基本搜索操作

* 6.atlas高阶搜索(一)

* 7.atlas高阶搜索(二)mp4

* 8.atlas高阶操作(三)

* 9.词汇与分类(需先导入数据再测试)

* 10.类型系统与总结

* 第三章元数据管理/

* 1.课程目标+业务元数据概述

* 2.元数据与数据分类关联关系

* 3.数据中台与元数据管理

* 4.数据质量内容与质量流程

* 5.atlas业务元数据管理

* 6.atlas中的hive数据模型

* 7.atlas集成hive hook

* 8.血缘关系与hive元数据导入

* 9.atlas集成sqoop元数据

* 10.atlas集成hbase元数据

* 11.atlas集成kafka元数据

* 12.数据生命周期管理概述与流程

* 13.falcon简介与工作方式

* 14.falcon原理与任务调度

* 15.atlas集成falcon元数据

* 第四章数据中台企业应用/

* 1.数据中台第四天课程目标与atlas安全SSL和服务认证

* 2.安全认证JAAS认证与spengo的http认证和客户端认证

* 3.atlas认证方式详细讲解

* 4.atlas授权模型和简单授权者

* 阶段二大数据运维课/

* 第一章大数据运维课程/

* 大数据运维课程介绍/

* 01-01课程学习目标

* 01-02-大数据运维岗位简介2

* 01-03-为什么要学习这门课程

* 01-04-岗位要求的技能栈

* 01-05-课程学习的内容和方式

* 运维相关概念介绍/

* 00-前言

* 01-01-01-塔式服务器介绍

* 01-01-02-机架服务器

* 01-01-03-云服务器

* 01-02-机柜和机房的概念

* 01-03-交换机

* 01-04-01-CPU性能指标

* 01-04-02-内存相关指标

* 01-04-03-硬盘相关指标以及最终硬件配置的选择

* 01-05-第一章总结

* 02-01-01-磁盘规划-普通模式&JBOD模式

* 02-01-02-RAID0

* 02-01-03-RAID1

* 02-01-04-RAID01&RAID10

* 02-01-05-其他RAID和最终磁盘方案的选择

* 02-01-磁盘规划-普通模式&JBOD

* 02-02-网络规划&第二章总结

* 03-01-域名

* 03-02-域名为何要备案

* 03-03-HTTPS&第三章总结

* 04-01-预发布环境

* 04-02-上线流程

* 04-03-自动化CICD&第四章总结

* 05-01-缓存

* 05-02-消息队列

* 05-03-负载均衡&第五章总结

* 06-高可用的概念

* 07-微服务的概念

* 08-结语

* 云平台/

* 01-01-云平台的概念

* 01-02-云平台的分类

* 01-03-主流公有云平台有哪些

* 01-04-三种云服务的概念

* 01-05-公有云对于企业或者个人的意思是什么

* 02-阿里云介绍

* 03-01-01-前置概念-地域

* 03-01-02-前置概念-可用区

* 03-01-03-前置概念-网络类型

* 03-01-04-前置概念-安全组

* 03-02-云服务器-阿里云上的云监控介绍

* 03-02-云服务器-创建1-实例基本设置

* 03-02-云服务器-创建2-网络和安全组设置

* 03-02-云服务器-创建3-系统设置和分组设置

* 03-02-云服务器-创建4-远程连接云服务器

* 03-03-云数据库RDS

* 03-04-云上NoSQL(其他云数据库)

* 03-05-云上对象存储OSS

* 04-其他服务的概念介绍

* 05-EMR中的Kafka和独立购买的Kafka服务有什么区别吗

* 06-AWS介绍

* 07-总结

* Grafana/

* 01-Grafana简介

* 02-时序的概念

* 03-Grafana安装

* 04-配置数据源

* 05-01-导入仪表板

* 05-02-01-创建仪表板和图形详细配置1之查询配置

* 05-02-02-可视化的详细配置和其他图表配置细节

* 05-03-补充-仪表板变量

* 05-04-丰富仪表板

* 06-01-其他功能介绍

* 07-用户-权限的管理

* zabbix监控大数据集群/

* 01-01-课程目的&Hadoop中的监控数据来源介绍

* 01-02-kafka的数据来源

* 03-01-为大数据主机安装zabbix-agent并在页面中配置

* 03-02-针对HTTP形式的JMX接口的数据采集

* 03-03-非HTTP形式的Kafka监控使用zabbix自带的jmx采集功能

* zabbix/

* 01-zabbix介绍

* 02-zabbix安装

* 03-01&02-基础设置和页面概览

* 03-03-用户和用户组

* 03-04-在其他机器单独安装zabbix-agent

* 03-05-监控项-触发器-模板-应用集

* 03-05-在zabbix-web-ui中添加刚刚安装agent的主机

* 03-06-图形配置

* 03-07-第三章小结

* 04-01-02-问题事件和问题确认

* 04-03-动作的概念和配置

* 04-03-动作的概念和配置-origin

* 04-04-报警媒介配置

* 04-05-配置用户的报警媒介信息

* 04-06&07-测试报警邮件的发送和恢复邮件的发送

* 04-08-第四章总结

* 05-01-监控项中配套的key（键值）

* 05-02-监控项的详细配置

* 05-03-触发器的详细配置

* 05-04-模板的配置和创建

* 05-05-权限管控的回顾和第五章总结

* 06-01&02-准备java代码和python脚本

* 06-03-用户自定义key的配置

* 06-04-在页面中配置监控项来使用自定义的key

* 06-05&06定义触发器和测试报警

* 06-06-课程总结

* 大数据基础环境准备和集群部署/

* 01-集群规划

* 02-01-常见操作系统

* 02-02-节点创建-01-VMWARE网络设置

* 02-02-节点创建-02-VMWARE创建虚拟机

* 02-02-节点创建-03-基于堡垒机复制出其它节点

* 02-02-节点创建-04-定制节点硬件添加硬盘和修改内存

* 02-02-节点创建-05-什么是堡垒机

* 02-03-01-配置节点IP

* 02-03-02-配置主机名和主机名映射和FQDN

* 02-03-03-磁盘挂载和格式化

* 02-03-04-创建用户用户组和权限讲解

* 02-03-05-包管理工具RPM和YUM

* 02-03-06-如何关闭IPv6

* 03-01-01-DNS介绍

* 03-01-02-DNS记录的类型

* 03-01-03-企业中DNS服务器在大规模集群中的应用

* 03-01-04-自行搭建DNS服务

* 03-02-01-防火墙介绍

* 03-02-02-企业中防火墙的实施情况

* 03-02-03-Linux自带防火墙Firewalld的简单操作

* 03-02-04-SELinux

* 03-03-01-时间同步的概念

* 03-03-02-配置NTP时间同步

* 03-04-SSH免密登录的配置和原理

* 03-05-FTP和SFTP

* 04-01-JDK部署和软链接硬链接

* 04-02-Hadoop部署

* 05-Part1总结

* 阶段三基于AWS的云上数仓构建/

* 第一章基于AWS的云上数仓构建/

* 第一章/

* 00-课程学习目标和前置技能需求

* 1.1-1.2-云平台的概念简介

* 1.3-两种云平台的分类

* 1.4-主流的公有云平台有哪些

* 1.5-云上的3种常见服务类型

* 1.6-第一章总结

* 第二章/

* 2.1.1-IaaS服务-EC2介绍

* 2.1.2-IaaS层-VPC介绍

* 2.1.3-IaaS层-Direct Connect服务

* 2.2.1-PaaS层-S3简介

* 2.2.2-2.2.4-PaaS层其它常见服务介绍

* 2.3.1-SaaS层-RDS介绍

* 2.3.2-SaaS层-DynamoDB介绍

* 2.3.3-SaaS层-Redshift介绍

* 2.3.4-SaaS层-AWS Glue介绍

* 2.3.5-SaaS层-AWS EMR介绍

* 2.3.6-SaaS层-Kinesis介绍和第二章总结

* 第三章/

* 3.1-前期准备-AWS账户

* 3.2-前期准备-AWS编程访问密钥对

* 3.3-前期准备-AWS CLI 配置

* 3.4-前期准备-准备安全组

* 3.5-前期准备-准备S3存储桶

* 3.6-前期准备-准备VPC终端节点

* 3.7-前期准备-项目架构介绍和第三章简单总结

* 第四章/

* 4.1and4.2-RDS概念回顾和创建

* 4.3-连接RDS

* 4.4-修改RDS的参数

* 第五章/

* 5.1-5.2-Glue-Glue的概念和执行原理介绍

* 5.3.1-Glue-元数据目录-手动添加csv文件的元数据表

* 5.3.2-1-Glue-元数据目录-爬网程序添加CSV文件元数据表

* 5.3.2-2-Glue-元数据目录-爬网程序添加RDS表

* 5.3.3-1-Glue-元数据目录-内置分类器概念

* 5.3.3-2-Glue-元数据目录-自定义CSV分类器

* 5.3.3-3-Glue-元数据目录-自定义JSON分类器

* 5.4.1-Glue-ETL测试任务CSV转JSON

* 5.4.2-2-Glue-ETL测试任务2-将结果写入到RDS

* 5.4.2-Glue-ETL测试任务2-自定义数据处理逻辑

* 5.5.1-Glue-工作流程的概念和JOB1和2的创建

* 5.5.2-Glue-工作流程的创建和运行

* 第六章/

* 6.1-EMR-概念回顾

* 6.2-EMR-EMR在课程中的定位

* 6.3.1-EMR-详细讲解EMR集群的创建和细节

* 6.3.2-EMR-集群配置参数的使用方法

* 6.3.3-EMR-创建步骤运行集群并提交JOB

* 6.4-EMR-第六章总结

* 第七章/

* 7.1-7.2-Redshift-概念回顾和特点

* 7.3-Redshift-IAM角色创建和集群创建详解

* 7.4-Redshift-加载示例数据体验

* 第八章/

* 8.1.1-Redshift-数据仓库架构概述

* 8.1.2-Redshift-性能概述

* 8.1.3-Redshift-列式存储概述

* 8.1.4-Redshift-内部组件和功能概览

* 8.2-Redshift-数据库常用日常操作

* 8.3.1-Redshift-排序键

* 8.3.2-Redshift-分配方式（分配键）

* 8.3.3-1-Redshift最佳实践案例-步骤1-加载数据

* 8.3.3-2-Redshift最佳实践案例-步骤2-记录系统性能信息

* 8.3.3-3-Redshift最佳实践案例-步骤3-选择排序键

* 8.3.3-4-Redshift最佳实践案例-步骤4-选择分配方式

* 8.3.3-5-Redshift最佳实践案例-步骤5-审查压缩编码和重新创建表

* 8.3.3-6-Redshift最佳实践案例-步骤6和7-重新进行性能测试记录数据进行性能对比

* 8.5.1-1-Redshift-DML-使用copy命令加载数据

* 8.5.1-2-Redshift-DML-从远程SSH主机加载数据到Redshift表中

* 8.5.2-暂存表

* 8.5.3-事务回滚

* 8.5.4-VACUUM命令

* 8.5.5-UNLOAD命令

* 8.5.6-拓展-Amazon Redshift Spectrum服务介绍

* 第九章/

* 9.1-数仓理论回顾-数据仓库的发展

* 9.2-数仓理论回顾-名词解释和数仓维度设计模型

* 9.3-数仓理论回顾-数仓开发中的3个基本层级

* 第十章/

* 10.1-业务开发-案例架构介绍

* 10.2-业务开发-数据格式说明

* 10.3.1-1-业务开发-ODS层开发说明

* 10.3.1-2-业务开发-开发GlueETL任务并COPY数据到Redshift ODS层

* 10.3.2-业务开发-开发DW层-准备日期维度数据

* 10.3.3-1-业务开发-开发DW层-讲解DW层开发的需求

* 10.3.3-2-业务开发-开发DW层-DW层开发EMR代码快速讲解

* 10.3.3-3-业务开发-开发DW层-提交EMR任务

* 10.3.4-10-ADS指标开发-指标10

* 10.3.4-11-ADS指标开发-总结

* 10.3.4-1-ADS指标开发-指标1

* 10.3.4-2-ADS指标开发-指标2

* 10.3.4-3-ADS指标开发-指标3

* 10.3.4-4-ADS指标开发-指标4

* 10.3.4-5-ADS指标开发-指标5

* 10.3.4-6-ADS指标开发-指标6

* 10.3.4-7-ADS指标开发-指标7

* 10.3.4-8-ADS指标开发-指标8

* 10.3.4-9-ADS指标开发-指标9

* 10.4-ODS层开发-Glue代码单独讲解

* 10.5-DW层开发-EMR代码单独讲解

* 第十一章/

* 11.1-SuperSet-简介和安装

* 11.3-SuperSet-建立到Redshift的数据库链接

* 11.4.10-SuperSet-指标8和指标9和指标10的可视化

* 11.4.1-SuperSet-指标1可视化

* 11.4.3-SuperSet-指标2可视化

* 11.4.4-SuperSet-指标3可视化和lable设置

* 11.4.6-SuperSet-指标4和指标5的可视化

* 11.4.8-SuperSet-指标6和指标7的可视化

* 11.5.1-BI开发-指标8的重新分析

* 11.5.2-BI开发-基于BI完成3个数据探索需求和BI总结

* 第十二章/

* 12.1-12.2-QuickSight介绍和注册

* 12.3-1-QuickSight添加数据源

* 12.3-2-QuickSight-指标9可视化操作

* 12.3-3-QuickSight-数据探索的简单演示和总结

* 阶段四数据湖/

* 第一章数据湖/

* 数据湖概念/

* 00-课程目标

* 01-1-1-企业的数据困扰

* 01-1-2-补充-结构化-半结构化-非结构化数据

* 01-2-数据湖的概念

* 01-3-数据湖-数仓-数据集市的区别

* 数据湖理论/

* 02-1-写时模式和读时模式

* 02-2-3种常见的数据湖实现方案

* 02-3-数据湖对企业的价值

* 02-4-数据湖概念的总结

* 02-5-数据湖的4个设计原则

* 数据处理、数据应用的几种架构/

* 03-Lambda架构的简单介绍

* 数据湖基于Hadoop、Spark的实现/

* 04-数据湖的核心以及和普通大数据分析平台的不同

* Delta Lake - 数据湖核心的增强/

* 05-1-DeltaLake的简介和重点特性解读

* 05-2-DeltaLake的使用形式

* Delta Lake - Quickstart/

* 06-1-DeltaLake创建表-读取表-覆盖表操作

* 06-2-DeltaLake有条件更新和合并操作

* 06-3-DeltaLake的数据版本控制

* 06-4-DeltaLake的事务日志

* Delta Lake 操作/

* 07-1-DeltaLake表分区和追加

* 07-2-DeltaLake-Schema验证

* 07-3-DeltaLake-更新和删除对Parquet数据文件的影响

* 07-4-DeltaLake-vacuum方法

* 07-5-DeltaLake-表常用工具和阶段总结

* Delta Lake 理论/

* 08-1-DeltaLake-事务日志概念回顾

* 08-2-DeltaLake-Schema演化相关概念回顾

* 08-3-DeltaLake-最佳实践和总结

* 企业数据湖应用案例分析/

* 09-1-案例需求分析

* 09-2-1-基础数据（中间数据）的准备

* 09-2-2-基础数据增加新列

* 09-2-3-统计每小时TOP10热门查询关键词

* 09-2-4-统计全天热门TOP100查询关键词

* 09-2-5-导出数据为普通parquet文件

* 09-3-第九章总结

* 基于AWS的云上数据湖实现方案介绍/

* 10-1-1云平台的基础概念

* 10-1-2-两类云平台和主流公有云平台介绍

* 10-1-3-IaaS-PaaS-SaaS的概念

* 10-1-4-云平台对企业的意义

* 10-2-1-AWS-S3简介

* 10-2-2-AWS-Athena分析框架简介

* 10-2-3-AWS-EMR-集群模式介绍

* 10-2-4-AWS-EMR-步骤运行模式介绍

* 10-2-5-AWS-Glue-ETl-简单介绍

* 10-2-6-AWS-其它辅助工具介绍和课程总结

* 阶段五大数据数据挖掘/

* 第一章 SparkMllib数据挖掘+SparkGraphX/

* 1-SparkMllib机器学习理论基础详解/

* 01-机器学习和大数据的区别(一)

* 02-机器学习和大数据的区别和联系(二)

* 03-机器学习和大数据的区别和联系(三)

* 04-人工智能和机器学习的区别

* 05-数据分析和数据挖掘联系

* 06-什么是机器学习问题

* 07-基于规则的学习和基于模型的学习方式

* 08-机器学习数据集概述1

* 09-机器学习数据集概述2

* 10-机器学习数据集概述3

* 11-机器学习问题分类

* 12-机器学习三要素强化

* 13-构建机器学习模型的流程

* 14-模型选择

* 15-交叉验证及经验和结构风险

* 2-SparkMllib库特征工程基础与实战(一)/

* 01-SparkMllib的功能

* 2-SparkMllib的版本

* 3-SparkMllib架构

* 4-环境搭建及RDD、DF、DS的转换实践

* 5-如何利用SparkMllib构建机器学习推荐架构

* 6.SparkMllib算法分类及应用场景

* 7-SparkMllib基础数据类型-localvector

* 8-SparkMllib基础数据类型-labelpoint

* 9.SparkMllib基础数据类型-libsvm数据读取

* 10.SparkMllib基础数据类型-localmatrix

* 11.SparkMllib基础数据类型-分布式行矩阵和行索引矩阵

* 12.SparkMllib基础数据类型-分块矩阵

* 13.SparkMllib均值和方差

* 14-SparkMllib相关系数

* 15-SparkMllib假设检验的卡方验证

* 16-SparkMllib假设检验和随机数的产生

* 17-特征提取tf-ifd

* 18-特征提取-word2vec实践

* 19-特征提取CountVector

* 3-SparkMllib库特征工程基础与实战(二)/

* 20-特征转化的二值化操作

* 21-特征转换-PCA操作

* 22-特征转换-类别型数据和数值型数据转换

* 23-特征转换-OneHot编码方式

* 24-特征转换-VectorIndexer转换操作

* 25-正则项

* 26-数值型数据处理的方法

* 27-Bucketizer分箱

* 28-ElementWise与SQLTransform实践

* 29-特征转换VectorAssemble

* 30-特征转换-QuantileDiscretizer

* 31-特征选择VectorSlicer

* 32-RFormula和卡方验证选择特征方法

* 33-卡方验证案例补充

* 36-案例实践2-Iris统计初步实践

* 37-案例实践2-Iris的rdd相关系数实践

* 38-案例实践2-iris的Dataframe数据统计

* 39-案例实践2-iris的SParkMllib特征工程实践

* 4-SparkMllib决策树算法基础与实战/

* 1-了解什么是决策树

* 2.基于规则建树

* 3-信息熵的理解

* 4-ID3算法步骤详解

* 5-ID3算法举例和C4.5算法改进

* 6-决策树的剪枝方式

* 7-电商购买数据集ID3算法对比实践

* 8-Cart树的回归树原理理解

* 9-Cart树算法案例讲解

* 10-Cart分类树原理及Gini系数

* 11-Cart分类树的案例

* 12-SparkMllib实战libsvm数据建模

* 13-SparkMl实战libsvm数据全流程讲解实战

* 14-SparkMllib相亲数据建模分析

* 15-SparkMllib实战iris鸢尾花实战

* 16-SparkMl实战Iris特征工程及建模实战1

* 5-SparkMllib高级模块与线性回归基础及实战/

* 1-SparkMllib的pipeline简介

* 2-Dataframe组件

* 3-Pipeline原理

* 4-通过set方法和ParamMap方法赋值超参数的选项

* 5-通过pipeline完成案例的代码编写

* 6-如何对模型选择与优化

* 7-超参数的网格搜索

* 8-简单交叉验证及模型选择

* 9-简单线性回归

* 10-最小二乘法解决简单线性回归原理

* 11-多元线性回归简介

* 12-最小二乘推导补充(补充)

* 13-线性回归的变体及各适用场景

* 14-SparkMl实战脂肪数据集的案例

* 15-SparkMl实战运输时间的预测分析

* 16-SparkMllib基于RDD结构实战线性回归实例

* 16-SparkMl实战libsvm数据的形式

* 17-Sparkml完成房价预测分析实战

* 6-SparkMllib聚类算法基础与实战/

* 1-什么是聚类

* 2-关于多种距离的度量简介

* 3-聚类算法核心思想

* 4-KMeans的举例

* 5-Kmens算法性能指标分析

* 6-KMeans特点及注意事项

* 7-SparkMLIB实战KMEans算法

* 8-SparkMLLIB实现药品数据得简单聚类

* 9-SparkMl实现基本数据的聚类分析实战

* 10-SparkMl和parkSql实现经纬度数据聚类分析实战

* 11-k-medoids了解

* 12-其他聚类思路-层次聚类方法

* 13-基于密度的聚类DBSCAN

* 14-GMM模型原理

* 15-聚类算法的总结：

* 16-SparkMllib实现对于层次聚类的分析

* 17-SparkMllib完成对于GMM高斯混合模型实践分析

* 18-SparkLDA实现了主题的提取实战

* 19-SparkML实现IRis鸢尾花的聚类算法实战

* 7-SparkGraphX理论基础与实战/

* 1-图基本概念以及图计算应用

* 2-SparkGraphX简介

* 3-SparkGraphX图算法

* 4-SparkGraphX抽象是RDPG---弹性分布式属性图

* 5-SparkGraphX架构层面及存储方式简介

* 6-SparkGraphX定义顶点操作

* 7-SparkGraphX构件图及查询的操作

* 8-图的基本数据结构

* 9-图的类型和图的存储方式简介

* 10-构建图的方法原理及源码了解创建过程

* 11-构建图的操作代码

* 12-社交网络数据的创建部分代码实战

* 13-图的基本信息--顶点、边、入度、出度

* 14-图的转换操作：mapVertices、mapEdges、mapTriplet

* 15-图的结构操作：reverse、subgraph、mask、groupGraph

* 16-图的关联操作

* 17-图的聚合以及图的操作API总结

* 8-SparkGraphX与SparkMllib综合实战/

* 1-PageRank算法的基本假设和理解

* 2-PageRank算法思想

* 3-PageRank算法深入

* 4-SparkGraphX通过社交网络数据完成重要节点的选择

* 5-通过wiki数据达到网页重要性的pagerank度量

* 6-通过PageRank算法得到网页排名的重要性

* 7-广度优先遍历

* 8-SparkGrphX实现最短路径

* 9-连通图和强联通图

* 10-SparkGraphx实战三角关系网络发现

* 11-SVD++原理

* 12-SVD++实战推荐算法预测

* 阶段六大数据-今日指数项目/

* 第一章大数据-今日指数/

* day01/

* 1.课程大纲

* 2.课程安排

* 3.证券业务知识介绍-1

* 4.证券业务知识介绍-2

* 5.业务模块和UI介绍

* 6.需求-数据源接口文档介绍

* 7.需求-接口文档（流处理和web）

* 8.业务功能-性能和存储规模介绍

* 9.架构设计-平台规划

* 10.总体架构介绍-1

* 11.总体架构介绍-2

* 12.总体架构介绍-预警

* 13.总体技术架构回顾

* 14.技术选型

* 15.数据流程介绍

* 16.项目实施介绍

* 17.数据源接口文档介绍

* 18.apache-avro介绍

* 19.定义avro约束文件

* 20.avro测试序列化

* 21.avro测试反序列化

* 22.深市数据采集-客户端代码开发-1

* 23.深市数据采集-客户端代码开发-2

* 24.深市数据采集-客户端代码开发-3

* 25.深市数据采集-客户端代码开发-4

* 26.深市数据采集-客户端代码开发-5

* 27.深市数据采集-kafka生产者对象

* 28.深市数据采集-自定义kafka序列化对象

* 29.数据生产测试

* 30.课程总结

* day02/

* 1.课程回顾

* 2.课程安排

* 3.沪市数据采集流程介绍

* 4.沪市数据采集接口文档介绍

* 5.数据采集流程介绍

* 6.沪市行情数据采集-初始化参数

* 7.沪市行情数据采集-ftp文件下载

* 8.沪市行情数据采集-数据序列化

* 9.flume自定source打包测试

* 10.数据业务开发-业务介绍

* 11.数据业务开发-模型设计介绍

* 12.数据业务开发-创建库表和加载ODS表数据

* 13.数据业务开发-沪市每日证券收盘明细表

* 14.数据业务开发-板块对应关系表和深市日收盘表

* 15.数据业务开发-沪深两市指数日收盘明细表

* 16.数据业务开发-个股K线表

* 17.数据业务开发-板块成分股

* 18.数据业务开发-指数K线

* 19.数据同步

* 20.定时任务调度

* 21.课程总结

* day03/

* 1.课程回顾

* 2.课程安排

* 3.业务流程介绍

* 4.环境搭建

* 5.配置类和特殊时间点工具类

* 6.HbaseUtil编写

* 7.HbaseUtil测试

* 8.RedisUtil开发和测试

* 9.个股主类开发-设置检查点机制

* 10.个股主类开发-kafka反序列化

* 11.个股主类开发-反序列化测试

* 12.个股主类开发-数据和时间过滤

* 13.个股主类开发-数据过滤

* 14.个股主类开发-数据转换

* 15.个股主类业务开发-设置水位线

* 16.Druid-应用场景

* 17.Druid-体系结构介绍

* 18.位图索引介绍

* 19.Druid启动

* 20.Druid测试-订单数据

* 22.索引文件解析

* 24.Druid-规范文件生成介绍

* 25.JDBC使用

* 26.Durid数据摄取-摄取HDFS和kafka数据

* 27.课程总结

* day04/

* 1.课程内容回顾

* 2.课程安排

* 3.个股业务开发介绍

* 4.个股秒级业务开发-窗口函数处理

* 5.个股秒级业务开发-封装list

* 6.个股秒级业务测试

* 7.个股秒级业务回顾

* 8.个股分时业务-开发步骤和注意事项

* 9.个股分时业务-获取最新分时行情数据

* 10.个分时业务-数据分流

* 11.个股分时业务-分时数据测试

* 12.个股分时数据备份-设置hdfs参数

* 13.个股分时数据备份-写入HDFS

* 14.上午课程回顾

* 15.个股涨跌幅业务开发

* 16.指数业务开发-新建job

* 17.指数业务开发-秒级行情

* 18.指数业务开发-获取分时行情数据

* 19.指数业务开发-分时行情数据写入

* 20.指数业务开发-分时备份至HDFS

* 21.指数业务开发-分时备份至HDFS测试

* 22.课程回顾

* day05/

* 1.课程回顾

* 2.课程安排

* 3.板块业务介绍

* 4.板块业务介绍2

* 5.板块秒级业务开发-初始化

* 6.板块秒级业务开发-计算累计流通市值

* 7.板块秒级业务-计算板块行情

* 8.板块秒级业务-数据测试

* 9.板块分时业务开发

* 10.板块分时备份至HDFS

* 11.K线业务介绍

* 12.个股K线-数据初始化

* 13.个股K线-数据转换

* 14.个股K线-数据写入mysql

* 15指数K线-数据初始化

* 16.指数K线-数据插入

* 17.板块K线-数据初始化

* 18.板块K线-数据插入

* 19.课程总结

* day06/

* 1.课程回顾

* 2.课程安排

* 3.预警业务介绍

* 4.预聚数据流程介绍

* 5.CEP介绍

* 6.铺垫正则表达式

* 7.量词得使用

* 8.过滤条件（简单和迭代）

* 9.过滤条件（or和util）

* 10.组合模式介绍

* 11.组合模式Demo开发（连续组合和允许组合）

* 12.案例-用户登陆失败

* 13.案例-监控市场价格（环境准备）

* 14.案例-监控市场价格-代码开发

* 15.测试邮件发送

* 16.实时预警-振幅业务开发（获取sql查询数据）

* 17.实时预警-振幅告警开发

* 18.实时预警-涨跌幅告警业务开发

* 19.课程总结

* day07/

* 1.课程回顾-1

* 2.课程回顾-2

* 3.课程回顾-3

* 4.课程安排

* 5.实时预警-换手率

* 6.CEP原理讲解

* 7.案例-超时订单数据处理

* 8.案例-机架温控预警-第一次模式匹配-1

* 9.案例-机架温控预警-获取第二次告警数据

* 10.Kylin入门

* 11.Kylin介绍和体系结构

* 12.启动Kylin

* 13.案例-根据日期对订单统计分析

* 14.案例-根据渠道统计订单数据

* 15.案例-根据日期-区域-产品统计订单数据

* 16.Kylin的工作原理（Cube和Cuboid）

* 17.离线预警-加载hive表中的个股数据

* 18.离线预警-分时成交top10

* 19.离线预警-振幅

* 20.课程总结

* day08/

* 1.课程回顾

* 2.课程安排

* 3.报表业务-多指标最值统计

* 4.JDBC操作Kylin

* 5.cube和segment的关系

* 6.增量构建和全量构建的区别

* 7.restApi触发增量构建

* 8.增量构建-手动合并segment

* 9.增量构建-删除segment

* 10.碎片管理

* 11.cuboid剪枝优化介绍

* 12.cube-剪枝优化衍生维度介绍

* 13.cube剪枝优化-聚合组介绍

* 14.膨胀率测试-创建model

* 15.膨胀率测试结果比较

* 16.web技术架构演变

* 17.web开发-查看接口文档

* 18.web-搭建工程

* 19.web-类介绍

* 20.web-AOP测试

* 21.整合mybatis

* day09/

* 1.课程回顾

* 2.实时大屏页面介绍

* 3.ReidsConfig配置文件开发

* 4.HbaseUtil区间查询

* 5.通用连接对象

* 6.国内指数查询

* 7.板块查询

* 8.涨幅数据查询

* 9.涨停跌停数查询

* 10.成交量对比

* 11.涨跌幅度查询

* 12.个股分时列表查询

* 13.股票搜索（模糊查询）

* 14.个股分时详情页面

* 15.日K线数据查询

* 16.日K线数据查询-2

* 17.个股分时详情

* 18.个股秒级行情

* 19.个股描述

* 20.定时任务-更细周K和月K

* 21.定时任务回顾.

* 22.课程回顾

* day10/

* 1.课程回顾和安排

* 2.部署介绍

* 3.深市数据采集部署

* 4.前后端本地联调

* 5.web项目部署

* 6.前端UI部署

* 7.实时流处理项目打包

* 8.环境准备

* 9.实时流处理项目部署

* 10.BI整合mysql-个股成交金额TOP10

* 11.BI整合druid-今日指数top4（成交量）

* 12.BI整合Kylin-还手率

* 13.开发模式介绍

* 14.课程总结-服务启动命令

* 15.课程总结-总体技术架构

* 16.课程总结-优化

* 17.课程总结-项目介绍

* 18.课程总结-自我介绍

* 19.课程总结-jvm介绍

* 20.课程总结-扩展

* 阶段七工业大数据项目实战/

* 第一章大数据一站制造项目/

* 第一章/

* 1.一站制造第一章总体内容概述+学习目标

* 2.工业互联网和制造业概述

* 3.加油站和相关实施名词说明

* 4.大数据在加油站领域的应用

* 5.一站制造项目核心业务流程图

* 6.一站制造项目架构和技术架构流程

* 7.docker容器服务安装

* 8.dcoker的linux命名空间

* 9.关于虚拟网桥与虚拟网卡详细讲解

* 10.docker网络的四种模式与bridge模式

* 11.oracle安装与使用客户端访问

* 12.docker安装hadoop+hive+sqoop+spark thrift server说明

* 13.一站制造项目第一章总结

* 第二章/

* 1.第二章数仓建模与数据采集课程目标

* 2.维度建模方法论

* 3.一站制造数仓分层详细说明

* 4.一站制造数仓简单回顾+业务系统和查看业务系统表

* 5.全量数据和增量数据详细情况分析

* 6.yarn的容量调度中设置appmaster可申请最大内存容量说明

* 7.mapreduce运行时以uber模式运行+uber相关参数说明

* 8.实现sqoop从oracle中导入单表数据到hdfs上

* 9.sqoop导入数据解决数据导入增加问题+两种解决方案

* 10.shell实现sqoop增量导入数据需求与分析

* 11.全量和增量导入数据的脚本

* 第三章/

* 1.第二章数据采集重要内容回顾

* 2.ODS&DWD层建设课程目标与项目规范

* 3.ODS层分别使用sparksql&hive引擎创建hvie表

* 4.ODS层自动创建表实现思路分析

* 5.实现ODS层自动创建表功能的准备工作

* 6.实现ODS层创建表工具类分析

* 7实现ODS层创建表读取全量和增量表工具类实现

* 8.实现ODS层得到oracle和hive连接工具类mp4

* 9.查询出oracle中表对应的元数据信息和创建列对象

* 10.编写表对象和表对象中三个特殊方法(给列对象集合添加列对象、根据列名获得列对象、得到所有列名集合)

* 11.编写从oracle中查询出表的元数据信息(包含列的元数据信息)工具类

* 12.oracle获得元数据信息工具类测试

* 13.使用动态拼接sql的方式创建表

* 14.ods层自动创建表过程详细分析

* 15.性能监控工具jprofile

* 16.简历编写方法与复习思路

* 第四章/

* 1.数仓ODS层&DWD层建设总结回顾

* 2.数仓维度层建设课程目标与维度建模理论回顾

* 3.实现地理区域查询省和市和区和乡镇数据建模+mr执行查询的流程分析

* 4.mapreduce执行过程和spark逻辑和物理执行计划

* 5.地理区域维度建模实现

* 6.日期维度建模

* 7.传入年份参数得到当年的所有的日期的id集合

* 8.日期维度生成

* 9.组织机构维度+服务网点维度+仓库维度

* 10油站维度建模

* 11.扩展维度

* 第五章/

* 1.解决笛卡尔积中存在两表关联无条件

* 2.第四章维度层建设重点内容回顾

* 3.DWB事实指标层建设简介

* 4.呼叫中心事实表建模(上)

* 5.呼叫中心事实表建模(下)

* 6.呼叫中心事实表建表和加载数据

* 7.油站事实表建模与新增油站计算方式

* 8.工单事实表建模

* 9.安装事实表建模

* 10.维修事实表建模

* 11.扩展指标事实表

* 12.客户回访指标分析

* 13.任务调度编排

* 第六章/

* 1.数仓DWB事实指标层重点内容回顾

* 2.服务类型中工单主题建模

* 3.服务类型中维修主题建模

* 4.服务类型中回访主题建模

* 5.服务类型中派单主题建模

* 6.服务类型中费用主题建模

* 7.客户分类中客户主题建模

* 8.保内良品和保内不良品核销建模

* 9.第三方服务商数据说明

* 10.运营部存储的部门或新业务需求数据+hbase的rowkey设计扩展

* 11.运营部主题简介+数仓分层对比阿里数仓分层

* 12一站制造项目总结(上)

* 13.一站制造项目总结(下)

* 阶段八大数据-星途车联网/

* 第一章大数据-星途车联网/

* day01/

* 01.【星途车联网】day01-项目的内容介绍及章节规划

* 02.【星途车联网】day01-车联网行业介绍

* 03.【星途车联网】day01-车联网项目探索和发现

* 04.【星途车联网】day01-项目整体架构

* 05.【星途车联网】day01-项目技术架构及逻辑架构图

* 06.【星途车联网】day01-数据流转过程分析

* 07.【星途车联网】day01-服务器及数据量的计算和数据格式分析

* 08.【星途车联网】day01-项目环境的搭建

* 09.【星途车联网】day01-解析简单的json字符串

* 10.【星途车联网】day01-解析复杂的json字符串

* 11.【星途车联网】day01-解析复杂的json字符串优化后的写法

* 12.【星途车联网】day01-知识点总结

* day02/

* 01.【星途车联网】day02-知识点回顾

* 02.【星途车联网】day02-分析数据采集上报过程以及编写kafka的生产者和消费者代码

* 03.【星途车联网】day02-流式处理模块的初始化

* 04.【星途车联网】day02-梳理实时ETL开发的流程步骤

* 05.【星途车联网】day02-编写时间处理的工具类

* 06.【星途车联网】day02-工具类的编写

* 07.【星途车联网】day02-json解析工具类的编写

* 08.【星途车联网】day02-flink流式处理程序消费kafka数据测试

* 09.【星途车联网】day02-对流式计算程序的任务进行封装公共类

* 10.【星途车联网】day02-etl任务的设计及反压的原理介绍

* 11.【星途车联网】day02-知识点总结

* day03/

* 01.【星途车联网】day03-知识点回顾

* 02.【星途车联网】day03-消费kafka数据过滤出来正常数据和异常数据

* 03.【星途车联网】day03-StreamingFileSink的介绍

* 04.【星途车联网】day03-StreamingFileSink的使用案例

* 05.【星途车联网】day03-使用StreamingFileSink的将正常和异常数据分别写入到hdfs中

* 06.【星途车联网】day03-hive创建分区映射hdfs数据所在目录加载到hive表中

* 07.【星途车联网】day03-回顾rowkey的设计原则和设计方法

* 08.【星途车联网】day03-将数据写入到hbase的流程分析

* 09.【星途车联网】day03-将数据实时的写入到hbase中

* 10.【星途车联网】day03-buffredmuator写入优化

* 11.【星途车联网】day03-使用优化后的buffredmuator方案将数据实时写入到hbase表中

* 12.【星途车联网】day03-buffredmuator源码分析

* 13.【星途车联网】day03-知识点总结

* day04/

* 01.【星途车联网】day04-知识点回顾

* 02.【星途车联网】day04-回顾hbase的预写日志

* 03.【星途车联网】day04-回顾hbase的编码和压缩

* 04.【星途车联网】day04-Phoenix的介绍

* 05.【星途车联网】day04-Phoenix的常用操作

* 06.【星途车联网】day04-hbase的二级索引介绍

* 07.【星途车联网】day04-车辆明细表数据的实时写入

* 08.【星途车联网】day04-基于车辆明细表数据进行数据统计

* 09.【星途车联网】day04-zepplin介绍和使用场景

* 10.【星途车联网】day04-zepplinUI介绍

* 11.【星途车联网】day04-zepplin与mysql和hive的整合案例

* 12.【星途车联网】day04-zepplin集成Phoenix进行即席查询

* 13.【星途车联网】day04-知识点总结

* day05/

* 01.【星途车联网】day05-知识点回顾

* 02.【星途车联网】day05-驾驶行程存储分层设计

* 03.【星途车联网】day05-驾驶行程业务实现逻辑分析

* 04.【星途车联网】day05-驾驶行程业务添加水印处理

* 05.【星途车联网】day05-驾驶行程采样数据自定义窗口开发

* 06.【星途车联网】day05-驾驶行程采样数据实时写入到hbase中

* 07.【星途车联网】day05-驾驶行程数据处理分析

* 08.【星途车联网】day05-驾驶行程数据自定义窗口开发

* 09.【星途车联网】day05-驾驶行程数据实时写入到hbase

* 10.【星途车联网】day05-驾驶行程数据离线同步到mysql数据库

* 11.【星途车联网】day05-知识点总结

* day06/

* 01.【星途车联网】day06-知识点回顾

* 02.【星途车联网】day06-电子围栏的介绍和应用场景

* 03.【星途车联网】day06-电子围栏的数据结构介绍

* 04.【星途车联网】day06-电子围栏业务开发流程梳理

* 05.【星途车联网】day06-电子围栏业务开发步骤编写

* 06.【星途车联网】day06-将电子围栏规则应用到原始数据流

* 07.【星途车联网】day07-测试两点之间距离的工具类

* 08.【星途车联网】day07-将电子围栏规则与原始数据进行拉宽操作并测试

* 09.【星途车联网】day07-分析电子围栏状态的切换逻辑

* 10.【星途车联网】day07-实现电子围栏状态的切换逻辑并测试

* 11.【星途车联网】day07-实现电子围栏分析结果写入到mysql并进行测试

* 12.【星途车联网】day07-知识点总结

* day07/

* 01.【星途车联网】day07-知识点回顾

* 02.【星途车联网】day07-在线实时故障分析业务介绍

* 03.【星途车联网】day07-表结构介绍及高德地图解决逆地理坐标问题

* 04.【星途车联网】day07-在线实时异常告警分析流程

* 05.【星途车联网】day07-异步io实现高德逆地理位置查询的逻辑梳理

* 06.【星途车联网】day07-异步io实现高德逆地理位置查询并测试

* 07.【星途车联网】day07-实现自定义窗口函数区分出来异常字段和正常指标字段

* 08.【星途车联网】day07-将车辆基础信息数据应用到原始数据流流

* 09.【星途车联网】day07-在线实时故障分析结果实时写入到数据库中

* 10.【星途车联网】day07-知识点总结

* day08/

* 01.【星途车联网】day08-知识点回顾

* 02.【星途车联网】day08-自定义告警规则业务分析和数据存储

* 03.【星途车联网】day08-存储介质mongodb的介绍

* 04.【星途车联网】day08-mongodb服务的部署

* 05.【星途车联网】day08-mongodb数据库及集合的常用操作

* 06.【星途车联网】day08-mongodb高阶操作

* 07.【星途车联网】day08-mongodb的索引介绍

* 08.【星途车联网】day08-mongodb的高阶操作

* 09.【星途车联网】day08-js实现mongodb的id自增操作

* 10.【星途车联网】day08-基于地理位置的查询

* 11.【星途车联网】day08-mongodb的客户端操作

* 12.【星途车联网】day08-知识点总结

* day09/

* 01.【星途车联网】day09-知识点回顾

* 02.【星途车联网】day09-使用jdbc对mongodb的数据进行添加或更新

* 03.【星途车联网】day09-使用jdbc对mongodb的数据进行删除及高级查询

* 04.【星途车联网】day09-mongodb的副本集原理及演示

* 05.【星途车联网】day09-自定义告警规则业务分析及相关表结构介绍

* 06.【星途车联网】day09-自定义告警规则业务代码实现步骤分析

* 07.【星途车联网】day09-自定义告警规则业务代码实现水印及自定义窗口操作

* 08.【星途车联网】day09-加载自定义告警规则数据并进行广播

* 09.【星途车联网】day09-梳理自定义告警规则应用到原始拉宽数据流的逻辑

* 10.【星途车联网】day09-自定义规则计算表达式工具类

* 11.【星途车联网】day09-知识点总结

* day10/

* 01.【星途车联网】day10-知识点回顾

* 02.【星途车联网】day10-将自定义告警规则应用到数据流拉宽分析结果模型数据

* 03.【星途车联网】day10-分析数据写入到mongodb的逻辑

* 04.【星途车联网】day10-分析数据写入到mongodb的实现

* 05.【星途车联网】day10-分析数据写入到mongodb的测试

* 06.【星途车联网】day10-离线指标分析业务介绍及课程目标

* 07.【星途车联网】day10-jdbc六大对象介绍以及各自使用场景

* 08.【星途车联网】day10-使用jdbcinputformat和jdbcoutformat案例演示

* 09.【星途车联网】day10-知识点总结

* day11/

* 01.【星途车联网】day11-知识点回顾

* 02.【星途车联网】day11-编写数据汇总计算准备率实现逻辑

* 03.【星途车联网】day11-编写数据汇总计算准备率写入到mysql表中

* 04.【星途车联网】day11-多维度分析数据准备率写入到mysql表中

* 05.【星途车联网】day11-自定义告警类型和告警状态统计分析

* 06.【星途车联网】day11-车联网项目数仓分层

* 07.【星途车联网】day11-车辆动态监测分析

* 08.【星途车联网】day11-BI分析及介绍

* 09.【星途车联网】day11-superset入门案例

* 10.【星途车联网】day11-前端页面介绍

* 11.【星途车联网】day11-知识点总结

* day12/

* 01.【星途车联网】day12-知识点回顾

* 02.【星途车联网】day12-回顾flink应用程序的部署方式以及flinkonyarn部署

* 03.【星途车联网】day12-车联网任务分类的总结

* 04.【星途车联网】day12-ds介绍及安装部署

* 05.【星途车联网】day12-ds定义并调度任务

* 06.【星途车联网】day12-ds基本使用和项目管理界面操作

* 07.【星途车联网】day12-扩展了解充电桩业务

* 08.【星途车联网】day12-项目总结1

* 09.【星途车联网】day12-项目总结2

* 阶段九 BAT直通车/

* 第一章大数据-大厂面试题/

* 阿里巴巴面试题/

* 0.阿里巴巴大数据面试题学习目标

* 1. 大表join小表报错怎么解决

* 2. 自定义函数udf、udaf、udtf的区别

* 3. hive的元数据保存方式有哪些，有什么特点

* 4. 内部表与外部表的区别

* 5. 为什么建议使用外部表

* 6. insert into 与insert overwrite 的区别

* 7. Hive的条件判断函数有哪些

* 8. Hive表的特点

* 9. spark提交job流程

* 10. spark提交任务的时候--jars是什么意思

* 11. Hadoop的Wordcount详解

* 12. spark做过什么优化，原理是什么

* 13. 反转链表

* 14.实现堆 push pop min复杂度为O(1)

* 15. 10G文件只有32M内存怎么判断相似数据

* 16. Redis的数据结构

* 17. 什么是分布式系统

* 18. NOSQL为啥比SQL快

* 19. B+ 树与B树的区别

* 20. 输入ping ip后发生了什么

* 21. 很多观测站的数据怎么用Hive读取并写入

* 22. 元数据的理解、作用和影响

* 23. 对MaxCompute的了解并与常见的大数据系统做对比

* 24. Hadoop2.x做了哪些改动

* 25. spark的shuffle过程

* 26. JVM垃圾收集器

* 27. shuffle过程中数据写入到哪个buffer

* 28. Executor、core、task之间的关系

* 29. hiveSQL累计求和

* 30.说说arraylist、vector、linkedlist存储性能和特性

* 31.treeset的特性

* 32.给出二叉树列出先序、中序、后序遍历

* 33.第二高的薪水

* 百度面试题/

* 1. spark缓存数据缓存到了哪里

* 2. Linux常用命令

* 3. 除了这些还有其他的哪些技术

* 4. 自定义UDF、UDTF函数

* 5. zookeeper选举过程

* 6. 什么是脑裂

* 7. hdfs数据写入报错，从三个方向解答

* 8. hdfs的三副本怎么保持一致性

* 9. mapper与reducer个数的指定

* 11. hbase行键的设计原则

* 12. HBASE的日志合并树是什么

* 13. spark的WordCount

* 14. kafka与传统消息队列的区别

* 15. 简述平衡二叉树的插入删除操作

* 16. JDK8的新特性

* 17. 说说spark的RDD

* 18. Combiner函数的使用发生在哪个阶段，怎么使用

* 19. HBASE删除一条数据的过程

* 20. hive数据倾斜的原因以及解决方法

* 21. paxos的协议主要目的是什么

* 22. Hadoop、spark、MPI的特点以及使用场景

* 23. 解释TCP建立过程，并用函数解释交互过程

* 24. 说一下异常

* 25. kafka的message包含哪些信息

* 26. kafka的数据存储在哪

* 27. java的NIO介绍一下

* 28.flume丢包问题

* 29.不采用flume采集日志，用logger4j采集日志的优缺点

* 30.hive笔试题

* 滴滴面试题/

* 今日目标

* 1. 怎么保证多请求的顺序性

* 2. 僵尸进程和孤儿进程

* 3. fork函数的底层实现过程

* 4. jvm内存布局

* 5. 什么情况发生栈溢出

* 6. 什么是双亲委派模型，以及优点

* 7. 堆排序求TOPN

* 8. 怎么解决过拟合问题

* 9. L1和L2的正则区别

* 10. yarn中的APPmaster挂掉了怎么办

* 11. MapReduce慢的原因

* 12. hdfs小文件优化方法

* 13. hdfs的压缩算法和使用场景

* 14.hive里面的几种排序特点

* 15. hive底层与数据库交互原理

* 16. hive如何进行权限控制

* 17. hivesql笔试题

* 18. application的并行度设置

* 19.spark提交任务的参数

* 20.spark中的数据倾斜有什么好的解决方案

* 21. flink的组件有哪些

* 22. 你们的flink集群规模有多大

* 23.flink的基础编程模型是什么

* 24. flink集群的角色有哪些，以及作用是什么

* 25. 设计一个大型网站架构

* 26. hbase的compaction用户和在什么时候触发

* 27. 给定a、b2个大文件，匹配里面的URL

* 28.每天百亿数据写入hbase，怎么保证写入

* 29. 列举hbase的优化方法

* 30.kafka怎么保证数据不丢失

* 京东面试题/

* 1. 二叉树的逐层打印

* 2. 归并排序之java实现

* 3. 一根绳子要少一个小时，怎么计算半个小时

* 4. 快速排序java实现

* 5. 1亿个数据找前1000条最大的数据

* 6. 谈谈用MapReduce求topk

* 7. mr和spark的shuffle区别

* 8. hiveSQL的执行顺序

* 9. 统计所有用户和活跃用户的个数以及年龄

* 10. 统计10月用户第一次购买的商品信息

* 11. rdd与dataset的区别

* 12. Spark为什么分为transformation和action

* 13. 将将scala的伴生对象

* 14. 谈谈scala的隐式转换

* 15. jobmanager在集群中扮演了什么角色

* 16. flink里面slot和parallelism的区别

* 17. flink分布式快照的原理是什么

* 18.说说flink的序列化

* 19. 用Linux命令查找指定内容的文件

* 20. 说出几个git的常用命令

* 21. kafka快的原因，零拷贝的原理

* 22. 简单讲讲direct的设计思路

* 23. 介绍一下flume的架构

* 24. 用Linux命令对一个文件进行处理

* 25. TCP的三次握手和四次挥手过程

* 26. 怎么保证在kill-9的情况下数据不丢失

* 27. 数据看看的锁有哪些

* 28. URL和uri的区别

* 29.sleep和yield的区别

* 30.snn的工作机制

* 31.运行异常和受检异常有什么不同

* 32.flink和storm反压有什么不同

* 美团面试题/

* 0.美团大数据面试题学习目标

* 1. 数仓命令规范

* 2.拉链表的使用场景

* 3. 数据库和数据仓库的区别

* 4. 有什么维表

* 5. 数据源有哪些

* 6. 最大的表和数据量是多少

* 7. 用什么调度工具

* 8. 数仓数据抽取方法

* 9. datax比sqoop快

* 10. CDH集群搭建

* 11. Redis和zookeeper的分布式锁

* 12. zookeeper如何保持数据一致性

* 13. 项目的解决方案及问题

* 14. 流式计算和离线计算的选取

* 15. OLAP引擎有哪些

* 16. 谈谈对MPP数据库的了解

* 17. 谈谈对Clickhouse的了解

* 18. kylin数据库原理

* 19. APP怎么对外提供服务的

* 20. 缓慢变化维的处理方式有哪些

* 21. datax存储数据遇到emoji表情报错该怎么解决

* 22. 为什么要用到大数据平台

* 23. 维度建模和范式建模的区别

* 24. 从0-1构建数仓

* 25. 数据模型如何构建

* 26. 如何保证数据质量

* 27. datax与sqoop的优缺点

* 28. 集市层和公共层

* 29. on 和 where的区别

* 30. flink为什么要checkpoint机制

* 31. flink如何保证Exactly_once的原理

* 32. flink的背压机制

* 33. spark和flink对比

* 34. flink的join操作

* 腾讯面试题/

* 1.学习目标和分哪几个模块

* 2.数组的子数组最大值代码实现

* 3.递归算法反转字符串

* 4. 冒泡排序代码实现

* 5. 二叉树的java代码实现

* 6. hdfs的操作命令

* 7. 集群节点的上线和下线

* 8.Hadoop的namenode宕机怎么办

* 9.联邦的实现

* 10.Hadoop的序列化和反序列化以及定义bean对象的步骤

* 11.MapReduce的几种排序以及发生的阶段

* 12.你们的数据量大概是多少

* 13.讲讲你的优化方法

* 14.hiveSQL怎么计算map个数

* 15. 怎么查看hive的自带函数，以及使用命令

* 16.hive命令操作

* 17.hive支持哪些数据类型

* 18.分区表解决需求

* 19.hive自带函数split用法

* 20.dataframe和rdd的区别

* 21.spark的数据倾斜问题怎么解决

* 22.spark的2种shuffle工作流程

* 23.checkpoint的操作

* 24.rdd的弹性表现在哪几点

* 25.flink什么情况才会生成operator chain

* 26.flink 的三层图指的是什么

* 27.flink计算资源是如何调度的

* 28.简述flink的数据抽象和交换过程

* 29.简述flinkSQL是如何实现的

* 30.kafka为什么这么快

* 31.hbase和hive的区别

* 网易面试题/

* 1.本章面试题介绍

* 2.N级台阶的递归算法实现

* 3.大型网站在架构上应当考虑哪些问题

* 4.你用过的前端优化技术有哪些

* 5.领域模型、失血模型、贫血模型、充血模型

* 6.海量数据统计前10个词

* 7.二分查找法思想和实现

* 8.判断一个单词里面的字母是否全都不同

* 9.找回文素数代码实现

* 10.如何配置安装一个Apache Hadoop

* 11.Hadoop集群中有哪些进程

* 12.描述MapReduce中shuffle阶段的工作流程

* 13.hdfs的读和写流程

* 14.Hadoop的几个默认端口号及其含义

* 15.源码解析Hadoop中的recordreader和split以及block之间的关系

* 16.举例2种hive的优化措施

* 17.根据需求统计结果

* 18.聊聊hive的索引

* 19.spark提交作业流程

* 20.stage，task和宽窄依赖

* 21.spark的内存模型

* 22.spark何时缓存数据

* 23.sparkstreaming处理偏移量的管理方法

* 24.spark中ML和MLLib的区别和联系

* 25.spark如何自定义partitioner分区器

* 26.flink相比传统sparkstreaming的区别

* 27.说说flink中的窗口

* 28.说说flink的内存管理是如何做的

* 29.flink的延迟高，怎么解决这个问题

* 30.hbase中的scan对象的setcache和setbatch方法的使用

* 31.hbase的内部机制是什么

* 32.如何提高hbase客户端的读写性能

* 33.kafka生产数据后消息会发生偏移吗

* 小米面试题/

* 1.小米大数据面试题介绍

* 2.针对排好序的数组进行去重操作代码实现

* 3.有一个元素超过数组的半数以上，找到这个元素

* 4.什么是XSS、什么是SQL注入、什么是CSRF攻击

* 5.谈谈TDD的好处

* 6.归并排序之Java实现

* 7.给出5个数字12345的全排列

* 8.怎么在海量数据中找出重复次数最多的一个

* 9.根据日起计算多少天

* 10.约瑟夫环

* 11.Hadoop中有哪些重要的配置文件，作用是什么

* 12.Hadoop实现join的几种方法

* 13.MapReduce推测执行算法以及原理

* 14.fileinputformat切片机制

* 15.maptask的工作机制

* 16.hive笔试题

* 17.分组求前10名

* 18.讲讲hive里面的jvm重用

* 19.如何理解spark的RDD数据结构分区

* 20.广播变量使用需要注意什么

* 21.sparkstreaming的反压怎么处理

* 22.spark On mesos中什么是粗粒度什么是细粒度以及优缺点

* 23.spark中版本的意思，以及spark1.6.0数字代表什么意思

* 24.spark技术有哪些组件，每个功能是什么

* 25.介绍一下对unfied memory manager内存管理的理解

* 26.jobmanager在集群启动中起到什么作用

* 27.flink中的分布式快照机制如何实现

* 28.hbase中rowfilter和bloomfilter的原理

* 29.请说明kafka的消息投递保证机制

* 30.协同过滤算法的底层实现原理

* 阶段十大数据常见架构与设计-大厂架构/

* 第一章大数据-大厂架构/

* 小米架构/

* 00_目录和学习目标

* 01_离线数据仓库架构

* 02_维度数据建模

* 03_联机分析处理

* 04_OLAP分类和逻辑概念

* 05_联机分析处理性能

* 06_实时数仓与离线数仓的对比

* 07_kappa流批一体架构介绍

* 08_kappa流批一体架构流程的2个阶段

* 09_离线架构v1.0

* 10_混合流批一体架构v2.0

* 11_实时kappa架构v3.0

* 12_环境准备

* 13_环境演示

* 14_数仓案例架构

* 15_案例维度同步和事实表拉宽处理

* 16_案例明细数据进行汇总处理

* 17_总结

* 美团架构/

* 00_目标和目录

* 01_美团点评的挑战和解决方案

* 02_离线数据仓库

* 03_系统架构之迁移、层层转换、数据的冷热温

* 04_划分维度表、事实表和调度系统

* 05_系统监控

* 06_准实时数仓

* 07_实时数仓和离线数仓、准实时数仓的方案对比

* 08_基于flink体系的实时数仓方案

* 09_基于Mysql+Canal+kafka的CDC方案

* 10_基于MySQL+FlinkCDC+FlinkTable

* 11_分层体系

* 12_环境的安装部署

* 13_数据类型和连接器

* 14_FileSystem连接器

* 15_Kafka连接器

* 16_FlinkStreaming SQL入门案例

* 17_介绍综合案例的表结构和数据生成器

* 18_执行代码生成表结构和数据

* 19_创建ODS层数据库

* 20_创建DWD层和DWS层数据表

* 21_总结

* 平安架构/

* 00_学习目标

* 01_离线数据仓库架构

* 02_维度数据建模

* 03_联机分析处理

* 04_OLAP分类和逻辑概念

* 05_联机分析处理性能

* 06_实时数仓与离线数仓的对比

* 07_Lambda流批混合架构

* 08_Lambda架构概览

* 09_Lambda三层架构

* 10_Lambda架构常用技术选型

* 11_平安整体架构模型

* 12_平安大数据lambda架构的落地

* 13_Lambda架构的案例需求和模块创建

* 13_环境准备

* 14_环境演示

* 14_离线处理的公共模块导入

* 15_离线批处理案例实现

* 16_实时流处理案例实现

* 17_总结

本篇 ¥29.00 · 开通 VIP 更划算

查看价格与购买

相关推荐

小滴课堂新一代AI全栈工程师-微服务AI智能面试对话平台

¥79.00 · 2461 浏览

AI+全能测试工程师

¥95.00 · 3174 浏览

小滴课堂中间件项目大课-自动化云测平台/Spingboot3.X/微服务/Kafka3.x

¥67.00 · 501 浏览

代码源信奥C++

¥19.90 · 2509 浏览

华清远见线上课程（创客学院）嵌入式+物联网

¥20.00 · 2469 浏览

小龙虾OpenClaw+Gemini+GPT+deepseek+Claude+AI绘画PPT数据分析

¥57.00 · 1434 浏览

大数据精英进阶课

体系课

20 人浏览发布 2026-06-09更新 2026-07-10

* 阶段一数据-数据中台/

* 第一章大数据-数据中台/

* 1-第一章初识数据中台/

* 1.数据中台课程大纲概述

* 2.数据中台概述和历史来源

* 3.从数据中台故事了解数据中台真正解决的问题

* 4.数据中台需要具备的能力

* 5.数据中台大数据架构选型

* 6.数据质量管理ApacheGriffin概述

* 7.通过讲解Griffin安装熟悉大数据组件与Griffin的关系

* 8.Griffin软件详解+版本区别带来的功能差异

* 9.数据质量监控Hive数据

* 10.数据质量监控任务调度与指标度量看板

* 11.数据质量监控实时数据kafka任务与日志查看

* 12.数据中台第一章总结(day01总结)

* 第二章数据治理Atlas/

* 1.课程目标+数据治理概述

* 2.数据治理分类+数据治理工具

* 3.atlas安装与导入样本数据说明

* 4.atlas高可用与atlas架构

* 5.atlas基本搜索操作

* 6.atlas高阶搜索(一)

* 7.atlas高阶搜索(二)mp4

* 8.atlas高阶操作(三)

* 9.词汇与分类(需先导入数据再测试)

* 10.类型系统与总结

* 第三章元数据管理/

* 1.课程目标+业务元数据概述

* 2.元数据与数据分类关联关系

* 3.数据中台与元数据管理

* 4.数据质量内容与质量流程

* 5.atlas业务元数据管理

* 6.atlas中的hive数据模型

* 7.atlas集成hive hook

* 8.血缘关系与hive元数据导入

* 9.atlas集成sqoop元数据

* 10.atlas集成hbase元数据

* 11.atlas集成kafka元数据

* 12.数据生命周期管理概述与流程

* 13.falcon简介与工作方式

* 14.falcon原理与任务调度

* 15.atlas集成falcon元数据

* 第四章数据中台企业应用/

* 1.数据中台第四天课程目标与atlas安全SSL和服务认证

* 2.安全认证JAAS认证与spengo的http认证和客户端认证

* 3.atlas认证方式详细讲解

* 4.atlas授权模型和简单授权者

* 阶段二大数据运维课/

* 第一章大数据运维课程/

* 大数据运维课程介绍/

* 01-01课程学习目标

* 01-02-大数据运维岗位简介2

* 01-03-为什么要学习这门课程

* 01-04-岗位要求的技能栈

* 01-05-课程学习的内容和方式

* 运维相关概念介绍/

* 00-前言

* 01-01-01-塔式服务器介绍

* 01-01-02-机架服务器

* 01-01-03-云服务器

* 01-02-机柜和机房的概念

* 01-03-交换机

* 01-04-01-CPU性能指标

* 01-04-02-内存相关指标

* 01-04-03-硬盘相关指标以及最终硬件配置的选择

* 01-05-第一章总结

* 02-01-01-磁盘规划-普通模式&JBOD模式

* 02-01-02-RAID0

* 02-01-03-RAID1

* 02-01-04-RAID01&RAID10

* 02-01-05-其他RAID和最终磁盘方案的选择

* 02-01-磁盘规划-普通模式&JBOD

* 02-02-网络规划&第二章总结

* 03-01-域名

* 03-02-域名为何要备案

* 03-03-HTTPS&第三章总结

* 04-01-预发布环境

* 04-02-上线流程

* 04-03-自动化CICD&第四章总结

* 05-01-缓存

* 05-02-消息队列

* 05-03-负载均衡&第五章总结

* 06-高可用的概念

* 07-微服务的概念

* 08-结语

* 云平台/

* 01-01-云平台的概念

* 01-02-云平台的分类

* 01-03-主流公有云平台有哪些

* 01-04-三种云服务的概念

* 01-05-公有云对于企业或者个人的意思是什么

* 02-阿里云介绍

* 03-01-01-前置概念-地域

* 03-01-02-前置概念-可用区

* 03-01-03-前置概念-网络类型

* 03-01-04-前置概念-安全组

* 03-02-云服务器-阿里云上的云监控介绍

* 03-02-云服务器-创建1-实例基本设置

* 03-02-云服务器-创建2-网络和安全组设置

* 03-02-云服务器-创建3-系统设置和分组设置

* 03-02-云服务器-创建4-远程连接云服务器

* 03-03-云数据库RDS

* 03-04-云上NoSQL(其他云数据库)

* 03-05-云上对象存储OSS

* 04-其他服务的概念介绍

* 05-EMR中的Kafka和独立购买的Kafka服务有什么区别吗

* 06-AWS介绍

* 07-总结

* Grafana/

* 01-Grafana简介

* 02-时序的概念

* 03-Grafana安装

* 04-配置数据源

* 05-01-导入仪表板

* 05-02-01-创建仪表板和图形详细配置1之查询配置

* 05-02-02-可视化的详细配置和其他图表配置细节

* 05-03-补充-仪表板变量

* 05-04-丰富仪表板

* 06-01-其他功能介绍

* 07-用户-权限的管理

* zabbix监控大数据集群/

* 01-01-课程目的&Hadoop中的监控数据来源介绍

* 01-02-kafka的数据来源

* 03-01-为大数据主机安装zabbix-agent并在页面中配置

* 03-02-针对HTTP形式的JMX接口的数据采集

* 03-03-非HTTP形式的Kafka监控使用zabbix自带的jmx采集功能

* zabbix/

* 01-zabbix介绍

* 02-zabbix安装

* 03-01&02-基础设置和页面概览

* 03-03-用户和用户组

* 03-04-在其他机器单独安装zabbix-agent

* 03-05-监控项-触发器-模板-应用集

* 03-05-在zabbix-web-ui中添加刚刚安装agent的主机

* 03-06-图形配置

* 03-07-第三章小结

* 04-01-02-问题事件和问题确认

* 04-03-动作的概念和配置

* 04-03-动作的概念和配置-origin

* 04-04-报警媒介配置

* 04-05-配置用户的报警媒介信息

* 04-06&07-测试报警邮件的发送和恢复邮件的发送

* 04-08-第四章总结

* 05-01-监控项中配套的key（键值）

* 05-02-监控项的详细配置

* 05-03-触发器的详细配置

* 05-04-模板的配置和创建

* 05-05-权限管控的回顾和第五章总结

* 06-01&02-准备java代码和python脚本

* 06-03-用户自定义key的配置

* 06-04-在页面中配置监控项来使用自定义的key

* 06-05&06定义触发器和测试报警

* 06-06-课程总结

* 大数据基础环境准备和集群部署/

* 01-集群规划

* 02-01-常见操作系统

* 02-02-节点创建-01-VMWARE网络设置

* 02-02-节点创建-02-VMWARE创建虚拟机

* 02-02-节点创建-03-基于堡垒机复制出其它节点

* 02-02-节点创建-04-定制节点硬件添加硬盘和修改内存

* 02-02-节点创建-05-什么是堡垒机

* 02-03-01-配置节点IP

* 02-03-02-配置主机名和主机名映射和FQDN

* 02-03-03-磁盘挂载和格式化

* 02-03-04-创建用户用户组和权限讲解

* 02-03-05-包管理工具RPM和YUM

* 02-03-06-如何关闭IPv6

* 03-01-01-DNS介绍

* 03-01-02-DNS记录的类型

* 03-01-03-企业中DNS服务器在大规模集群中的应用

* 03-01-04-自行搭建DNS服务

* 03-02-01-防火墙介绍

* 03-02-02-企业中防火墙的实施情况

* 03-02-03-Linux自带防火墙Firewalld的简单操作

* 03-02-04-SELinux

* 03-03-01-时间同步的概念

* 03-03-02-配置NTP时间同步

* 03-04-SSH免密登录的配置和原理

* 03-05-FTP和SFTP

* 04-01-JDK部署和软链接硬链接

* 04-02-Hadoop部署

* 05-Part1总结

* 阶段三基于AWS的云上数仓构建/

* 第一章基于AWS的云上数仓构建/

* 第一章/

* 00-课程学习目标和前置技能需求

* 1.1-1.2-云平台的概念简介

* 1.3-两种云平台的分类

* 1.4-主流的公有云平台有哪些

* 1.5-云上的3种常见服务类型

* 1.6-第一章总结

* 第二章/

* 2.1.1-IaaS服务-EC2介绍

* 2.1.2-IaaS层-VPC介绍

* 2.1.3-IaaS层-Direct Connect服务

* 2.2.1-PaaS层-S3简介

* 2.2.2-2.2.4-PaaS层其它常见服务介绍

* 2.3.1-SaaS层-RDS介绍

* 2.3.2-SaaS层-DynamoDB介绍

* 2.3.3-SaaS层-Redshift介绍

* 2.3.4-SaaS层-AWS Glue介绍

* 2.3.5-SaaS层-AWS EMR介绍

* 2.3.6-SaaS层-Kinesis介绍和第二章总结

* 第三章/

* 3.1-前期准备-AWS账户

* 3.2-前期准备-AWS编程访问密钥对

* 3.3-前期准备-AWS CLI 配置

* 3.4-前期准备-准备安全组

* 3.5-前期准备-准备S3存储桶

* 3.6-前期准备-准备VPC终端节点

* 3.7-前期准备-项目架构介绍和第三章简单总结

* 第四章/

* 4.1and4.2-RDS概念回顾和创建

* 4.3-连接RDS

* 4.4-修改RDS的参数

* 第五章/

* 5.1-5.2-Glue-Glue的概念和执行原理介绍

* 5.3.1-Glue-元数据目录-手动添加csv文件的元数据表

* 5.3.2-1-Glue-元数据目录-爬网程序添加CSV文件元数据表

* 5.3.2-2-Glue-元数据目录-爬网程序添加RDS表

* 5.3.3-1-Glue-元数据目录-内置分类器概念

* 5.3.3-2-Glue-元数据目录-自定义CSV分类器

* 5.3.3-3-Glue-元数据目录-自定义JSON分类器

* 5.4.1-Glue-ETL测试任务CSV转JSON

* 5.4.2-2-Glue-ETL测试任务2-将结果写入到RDS

* 5.4.2-Glue-ETL测试任务2-自定义数据处理逻辑

* 5.5.1-Glue-工作流程的概念和JOB1和2的创建

* 5.5.2-Glue-工作流程的创建和运行

* 第六章/

* 6.1-EMR-概念回顾

* 6.2-EMR-EMR在课程中的定位

* 6.3.1-EMR-详细讲解EMR集群的创建和细节

* 6.3.2-EMR-集群配置参数的使用方法

* 6.3.3-EMR-创建步骤运行集群并提交JOB

* 6.4-EMR-第六章总结

* 第七章/

* 7.1-7.2-Redshift-概念回顾和特点

* 7.3-Redshift-IAM角色创建和集群创建详解

* 7.4-Redshift-加载示例数据体验

* 第八章/

* 8.1.1-Redshift-数据仓库架构概述

* 8.1.2-Redshift-性能概述

* 8.1.3-Redshift-列式存储概述

* 8.1.4-Redshift-内部组件和功能概览

* 8.2-Redshift-数据库常用日常操作

* 8.3.1-Redshift-排序键

* 8.3.2-Redshift-分配方式（分配键）

* 8.3.3-1-Redshift最佳实践案例-步骤1-加载数据

* 8.3.3-2-Redshift最佳实践案例-步骤2-记录系统性能信息

* 8.3.3-3-Redshift最佳实践案例-步骤3-选择排序键

* 8.3.3-4-Redshift最佳实践案例-步骤4-选择分配方式

* 8.3.3-5-Redshift最佳实践案例-步骤5-审查压缩编码和重新创建表

* 8.3.3-6-Redshift最佳实践案例-步骤6和7-重新进行性能测试记录数据进行性能对比

* 8.5.1-1-Redshift-DML-使用copy命令加载数据

* 8.5.1-2-Redshift-DML-从远程SSH主机加载数据到Redshift表中

* 8.5.2-暂存表

* 8.5.3-事务回滚

* 8.5.4-VACUUM命令

* 8.5.5-UNLOAD命令

* 8.5.6-拓展-Amazon Redshift Spectrum服务介绍

* 第九章/

* 9.1-数仓理论回顾-数据仓库的发展

* 9.2-数仓理论回顾-名词解释和数仓维度设计模型

* 9.3-数仓理论回顾-数仓开发中的3个基本层级

* 第十章/

* 10.1-业务开发-案例架构介绍

* 10.2-业务开发-数据格式说明

* 10.3.1-1-业务开发-ODS层开发说明

* 10.3.1-2-业务开发-开发GlueETL任务并COPY数据到Redshift ODS层

* 10.3.2-业务开发-开发DW层-准备日期维度数据

* 10.3.3-1-业务开发-开发DW层-讲解DW层开发的需求

* 10.3.3-2-业务开发-开发DW层-DW层开发EMR代码快速讲解

* 10.3.3-3-业务开发-开发DW层-提交EMR任务

* 10.3.4-10-ADS指标开发-指标10

* 10.3.4-11-ADS指标开发-总结

* 10.3.4-1-ADS指标开发-指标1

* 10.3.4-2-ADS指标开发-指标2

* 10.3.4-3-ADS指标开发-指标3

* 10.3.4-4-ADS指标开发-指标4

* 10.3.4-5-ADS指标开发-指标5

* 10.3.4-6-ADS指标开发-指标6

* 10.3.4-7-ADS指标开发-指标7

* 10.3.4-8-ADS指标开发-指标8

* 10.3.4-9-ADS指标开发-指标9

* 10.4-ODS层开发-Glue代码单独讲解

* 10.5-DW层开发-EMR代码单独讲解

* 第十一章/

* 11.1-SuperSet-简介和安装

* 11.3-SuperSet-建立到Redshift的数据库链接

* 11.4.10-SuperSet-指标8和指标9和指标10的可视化

* 11.4.1-SuperSet-指标1可视化

* 11.4.3-SuperSet-指标2可视化

* 11.4.4-SuperSet-指标3可视化和lable设置

* 11.4.6-SuperSet-指标4和指标5的可视化

* 11.4.8-SuperSet-指标6和指标7的可视化

* 11.5.1-BI开发-指标8的重新分析

* 11.5.2-BI开发-基于BI完成3个数据探索需求和BI总结

* 第十二章/

* 12.1-12.2-QuickSight介绍和注册

* 12.3-1-QuickSight添加数据源

* 12.3-2-QuickSight-指标9可视化操作

* 12.3-3-QuickSight-数据探索的简单演示和总结

* 阶段四数据湖/

* 第一章数据湖/

* 数据湖概念/

* 00-课程目标

* 01-1-1-企业的数据困扰

* 01-1-2-补充-结构化-半结构化-非结构化数据

* 01-2-数据湖的概念

* 01-3-数据湖-数仓-数据集市的区别

* 数据湖理论/

* 02-1-写时模式和读时模式

* 02-2-3种常见的数据湖实现方案

* 02-3-数据湖对企业的价值

* 02-4-数据湖概念的总结

* 02-5-数据湖的4个设计原则

* 数据处理、数据应用的几种架构/

* 03-Lambda架构的简单介绍

* 数据湖基于Hadoop、Spark的实现/

* 04-数据湖的核心以及和普通大数据分析平台的不同

* Delta Lake - 数据湖核心的增强/

* 05-1-DeltaLake的简介和重点特性解读

* 05-2-DeltaLake的使用形式

* Delta Lake - Quickstart/

* 06-1-DeltaLake创建表-读取表-覆盖表操作

* 06-2-DeltaLake有条件更新和合并操作

* 06-3-DeltaLake的数据版本控制

* 06-4-DeltaLake的事务日志

* Delta Lake 操作/

* 07-1-DeltaLake表分区和追加

* 07-2-DeltaLake-Schema验证

* 07-3-DeltaLake-更新和删除对Parquet数据文件的影响

* 07-4-DeltaLake-vacuum方法

* 07-5-DeltaLake-表常用工具和阶段总结

* Delta Lake 理论/

* 08-1-DeltaLake-事务日志概念回顾

* 08-2-DeltaLake-Schema演化相关概念回顾

* 08-3-DeltaLake-最佳实践和总结

* 企业数据湖应用案例分析/

* 09-1-案例需求分析

* 09-2-1-基础数据（中间数据）的准备

* 09-2-2-基础数据增加新列

* 09-2-3-统计每小时TOP10热门查询关键词

* 09-2-4-统计全天热门TOP100查询关键词

* 09-2-5-导出数据为普通parquet文件

* 09-3-第九章总结

* 基于AWS的云上数据湖实现方案介绍/

* 10-1-1云平台的基础概念

* 10-1-2-两类云平台和主流公有云平台介绍

* 10-1-3-IaaS-PaaS-SaaS的概念

* 10-1-4-云平台对企业的意义

* 10-2-1-AWS-S3简介

* 10-2-2-AWS-Athena分析框架简介

* 10-2-3-AWS-EMR-集群模式介绍

* 10-2-4-AWS-EMR-步骤运行模式介绍

* 10-2-5-AWS-Glue-ETl-简单介绍

* 10-2-6-AWS-其它辅助工具介绍和课程总结

* 阶段五大数据数据挖掘/

* 第一章 SparkMllib数据挖掘+SparkGraphX/

* 1-SparkMllib机器学习理论基础详解/

* 01-机器学习和大数据的区别(一)

* 02-机器学习和大数据的区别和联系(二)

* 03-机器学习和大数据的区别和联系(三)

* 04-人工智能和机器学习的区别

* 05-数据分析和数据挖掘联系

* 06-什么是机器学习问题

* 07-基于规则的学习和基于模型的学习方式

* 08-机器学习数据集概述1

* 09-机器学习数据集概述2

* 10-机器学习数据集概述3

* 11-机器学习问题分类

* 12-机器学习三要素强化

* 13-构建机器学习模型的流程

* 14-模型选择

* 15-交叉验证及经验和结构风险

* 2-SparkMllib库特征工程基础与实战(一)/

* 01-SparkMllib的功能

* 2-SparkMllib的版本

* 3-SparkMllib架构

* 4-环境搭建及RDD、DF、DS的转换实践

* 5-如何利用SparkMllib构建机器学习推荐架构

* 6.SparkMllib算法分类及应用场景

* 7-SparkMllib基础数据类型-localvector

* 8-SparkMllib基础数据类型-labelpoint

* 9.SparkMllib基础数据类型-libsvm数据读取

* 10.SparkMllib基础数据类型-localmatrix

* 11.SparkMllib基础数据类型-分布式行矩阵和行索引矩阵

* 12.SparkMllib基础数据类型-分块矩阵

* 13.SparkMllib均值和方差

* 14-SparkMllib相关系数

* 15-SparkMllib假设检验的卡方验证

* 16-SparkMllib假设检验和随机数的产生

* 17-特征提取tf-ifd

* 18-特征提取-word2vec实践

* 19-特征提取CountVector

* 3-SparkMllib库特征工程基础与实战(二)/

* 20-特征转化的二值化操作

* 21-特征转换-PCA操作

* 22-特征转换-类别型数据和数值型数据转换

* 23-特征转换-OneHot编码方式

* 24-特征转换-VectorIndexer转换操作

* 25-正则项

* 26-数值型数据处理的方法

* 27-Bucketizer分箱

* 28-ElementWise与SQLTransform实践

* 29-特征转换VectorAssemble

* 30-特征转换-QuantileDiscretizer

* 31-特征选择VectorSlicer

* 32-RFormula和卡方验证选择特征方法

* 33-卡方验证案例补充

* 36-案例实践2-Iris统计初步实践

* 37-案例实践2-Iris的rdd相关系数实践

* 38-案例实践2-iris的Dataframe数据统计

* 39-案例实践2-iris的SParkMllib特征工程实践

* 4-SparkMllib决策树算法基础与实战/

* 1-了解什么是决策树

* 2.基于规则建树

* 3-信息熵的理解

* 4-ID3算法步骤详解

* 5-ID3算法举例和C4.5算法改进

* 6-决策树的剪枝方式

* 7-电商购买数据集ID3算法对比实践

* 8-Cart树的回归树原理理解

* 9-Cart树算法案例讲解

* 10-Cart分类树原理及Gini系数

* 11-Cart分类树的案例

* 12-SparkMllib实战libsvm数据建模

* 13-SparkMl实战libsvm数据全流程讲解实战

* 14-SparkMllib相亲数据建模分析

* 15-SparkMllib实战iris鸢尾花实战

* 16-SparkMl实战Iris特征工程及建模实战1

* 5-SparkMllib高级模块与线性回归基础及实战/

* 1-SparkMllib的pipeline简介

* 2-Dataframe组件

* 3-Pipeline原理

* 4-通过set方法和ParamMap方法赋值超参数的选项

* 5-通过pipeline完成案例的代码编写

* 6-如何对模型选择与优化

* 7-超参数的网格搜索

* 8-简单交叉验证及模型选择

* 9-简单线性回归

* 10-最小二乘法解决简单线性回归原理

* 11-多元线性回归简介

* 12-最小二乘推导补充(补充)

* 13-线性回归的变体及各适用场景

* 14-SparkMl实战脂肪数据集的案例

* 15-SparkMl实战运输时间的预测分析

* 16-SparkMllib基于RDD结构实战线性回归实例

* 16-SparkMl实战libsvm数据的形式

* 17-Sparkml完成房价预测分析实战

* 6-SparkMllib聚类算法基础与实战/

* 1-什么是聚类

* 2-关于多种距离的度量简介

* 3-聚类算法核心思想

* 4-KMeans的举例

* 5-Kmens算法性能指标分析

* 6-KMeans特点及注意事项

* 7-SparkMLIB实战KMEans算法

* 8-SparkMLLIB实现药品数据得简单聚类

* 9-SparkMl实现基本数据的聚类分析实战

* 10-SparkMl和parkSql实现经纬度数据聚类分析实战

* 11-k-medoids了解

* 12-其他聚类思路-层次聚类方法

* 13-基于密度的聚类DBSCAN

* 14-GMM模型原理

* 15-聚类算法的总结：

* 16-SparkMllib实现对于层次聚类的分析

* 17-SparkMllib完成对于GMM高斯混合模型实践分析

* 18-SparkLDA实现了主题的提取实战

* 19-SparkML实现IRis鸢尾花的聚类算法实战

* 7-SparkGraphX理论基础与实战/

* 1-图基本概念以及图计算应用

* 2-SparkGraphX简介

* 3-SparkGraphX图算法

* 4-SparkGraphX抽象是RDPG---弹性分布式属性图

* 5-SparkGraphX架构层面及存储方式简介

* 6-SparkGraphX定义顶点操作

* 7-SparkGraphX构件图及查询的操作

* 8-图的基本数据结构

* 9-图的类型和图的存储方式简介

* 10-构建图的方法原理及源码了解创建过程

* 11-构建图的操作代码

* 12-社交网络数据的创建部分代码实战

* 13-图的基本信息--顶点、边、入度、出度

* 14-图的转换操作：mapVertices、mapEdges、mapTriplet

* 15-图的结构操作：reverse、subgraph、mask、groupGraph

* 16-图的关联操作

* 17-图的聚合以及图的操作API总结

* 8-SparkGraphX与SparkMllib综合实战/

* 1-PageRank算法的基本假设和理解

* 2-PageRank算法思想

* 3-PageRank算法深入

* 4-SparkGraphX通过社交网络数据完成重要节点的选择

* 5-通过wiki数据达到网页重要性的pagerank度量

* 6-通过PageRank算法得到网页排名的重要性

* 7-广度优先遍历

* 8-SparkGrphX实现最短路径

* 9-连通图和强联通图

* 10-SparkGraphx实战三角关系网络发现

* 11-SVD++原理

* 12-SVD++实战推荐算法预测

* 阶段六大数据-今日指数项目/

* 第一章大数据-今日指数/

* day01/

* 1.课程大纲

* 2.课程安排

* 3.证券业务知识介绍-1

* 4.证券业务知识介绍-2

* 5.业务模块和UI介绍

* 6.需求-数据源接口文档介绍

* 7.需求-接口文档（流处理和web）

* 8.业务功能-性能和存储规模介绍

* 9.架构设计-平台规划

* 10.总体架构介绍-1

* 11.总体架构介绍-2

* 12.总体架构介绍-预警

* 13.总体技术架构回顾

* 14.技术选型

* 15.数据流程介绍

* 16.项目实施介绍

* 17.数据源接口文档介绍

* 18.apache-avro介绍

* 19.定义avro约束文件

* 20.avro测试序列化

* 21.avro测试反序列化

* 22.深市数据采集-客户端代码开发-1

* 23.深市数据采集-客户端代码开发-2

* 24.深市数据采集-客户端代码开发-3

* 25.深市数据采集-客户端代码开发-4

* 26.深市数据采集-客户端代码开发-5

* 27.深市数据采集-kafka生产者对象

* 28.深市数据采集-自定义kafka序列化对象

* 29.数据生产测试

* 30.课程总结

* day02/

* 1.课程回顾

* 2.课程安排

* 3.沪市数据采集流程介绍

* 4.沪市数据采集接口文档介绍

* 5.数据采集流程介绍

* 6.沪市行情数据采集-初始化参数

* 7.沪市行情数据采集-ftp文件下载

* 8.沪市行情数据采集-数据序列化

* 9.flume自定source打包测试

* 10.数据业务开发-业务介绍

* 11.数据业务开发-模型设计介绍

* 12.数据业务开发-创建库表和加载ODS表数据

* 13.数据业务开发-沪市每日证券收盘明细表

* 14.数据业务开发-板块对应关系表和深市日收盘表

* 15.数据业务开发-沪深两市指数日收盘明细表

* 16.数据业务开发-个股K线表

* 17.数据业务开发-板块成分股

* 18.数据业务开发-指数K线

* 19.数据同步

* 20.定时任务调度

* 21.课程总结

* day03/

* 1.课程回顾

* 2.课程安排

* 3.业务流程介绍

* 4.环境搭建

* 5.配置类和特殊时间点工具类

* 6.HbaseUtil编写

* 7.HbaseUtil测试

* 8.RedisUtil开发和测试

* 9.个股主类开发-设置检查点机制

* 10.个股主类开发-kafka反序列化

* 11.个股主类开发-反序列化测试

* 12.个股主类开发-数据和时间过滤

* 13.个股主类开发-数据过滤

* 14.个股主类开发-数据转换

* 15.个股主类业务开发-设置水位线

* 16.Druid-应用场景

* 17.Druid-体系结构介绍

* 18.位图索引介绍

* 19.Druid启动

* 20.Druid测试-订单数据

* 22.索引文件解析

* 24.Druid-规范文件生成介绍

* 25.JDBC使用

* 26.Durid数据摄取-摄取HDFS和kafka数据

* 27.课程总结

* day04/

* 1.课程内容回顾

* 2.课程安排

* 3.个股业务开发介绍

* 4.个股秒级业务开发-窗口函数处理

* 5.个股秒级业务开发-封装list

* 6.个股秒级业务测试

* 7.个股秒级业务回顾

* 8.个股分时业务-开发步骤和注意事项

* 9.个股分时业务-获取最新分时行情数据

* 10.个分时业务-数据分流

* 11.个股分时业务-分时数据测试

* 12.个股分时数据备份-设置hdfs参数

* 13.个股分时数据备份-写入HDFS

* 14.上午课程回顾

* 15.个股涨跌幅业务开发

* 16.指数业务开发-新建job

* 17.指数业务开发-秒级行情

* 18.指数业务开发-获取分时行情数据

* 19.指数业务开发-分时行情数据写入

* 20.指数业务开发-分时备份至HDFS

* 21.指数业务开发-分时备份至HDFS测试

* 22.课程回顾

* day05/

* 1.课程回顾

* 2.课程安排

* 3.板块业务介绍

* 4.板块业务介绍2

* 5.板块秒级业务开发-初始化

* 6.板块秒级业务开发-计算累计流通市值

* 7.板块秒级业务-计算板块行情

* 8.板块秒级业务-数据测试

* 9.板块分时业务开发

* 10.板块分时备份至HDFS

* 11.K线业务介绍

* 12.个股K线-数据初始化

* 13.个股K线-数据转换

* 14.个股K线-数据写入mysql

* 15指数K线-数据初始化

* 16.指数K线-数据插入

* 17.板块K线-数据初始化

* 18.板块K线-数据插入

* 19.课程总结

* day06/

* 1.课程回顾

* 2.课程安排

* 3.预警业务介绍

* 4.预聚数据流程介绍

* 5.CEP介绍

* 6.铺垫正则表达式

* 7.量词得使用

* 8.过滤条件（简单和迭代）

* 9.过滤条件（or和util）

* 10.组合模式介绍

* 11.组合模式Demo开发（连续组合和允许组合）

* 12.案例-用户登陆失败

* 13.案例-监控市场价格（环境准备）

* 14.案例-监控市场价格-代码开发

* 15.测试邮件发送

* 16.实时预警-振幅业务开发（获取sql查询数据）

* 17.实时预警-振幅告警开发

* 18.实时预警-涨跌幅告警业务开发

* 19.课程总结

* day07/

* 1.课程回顾-1

* 2.课程回顾-2

* 3.课程回顾-3

* 4.课程安排

* 5.实时预警-换手率

* 6.CEP原理讲解

* 7.案例-超时订单数据处理

* 8.案例-机架温控预警-第一次模式匹配-1

* 9.案例-机架温控预警-获取第二次告警数据

* 10.Kylin入门

* 11.Kylin介绍和体系结构

* 12.启动Kylin

* 13.案例-根据日期对订单统计分析

* 14.案例-根据渠道统计订单数据

* 15.案例-根据日期-区域-产品统计订单数据

* 16.Kylin的工作原理（Cube和Cuboid）

* 17.离线预警-加载hive表中的个股数据

* 18.离线预警-分时成交top10

* 19.离线预警-振幅

* 20.课程总结

* day08/

* 1.课程回顾

* 2.课程安排

* 3.报表业务-多指标最值统计

* 4.JDBC操作Kylin

* 5.cube和segment的关系

* 6.增量构建和全量构建的区别

* 7.restApi触发增量构建

* 8.增量构建-手动合并segment

* 9.增量构建-删除segment

* 10.碎片管理

* 11.cuboid剪枝优化介绍

* 12.cube-剪枝优化衍生维度介绍

* 13.cube剪枝优化-聚合组介绍

* 14.膨胀率测试-创建model

* 15.膨胀率测试结果比较

* 16.web技术架构演变

* 17.web开发-查看接口文档

* 18.web-搭建工程

* 19.web-类介绍

* 20.web-AOP测试

* 21.整合mybatis

* day09/

* 1.课程回顾

* 2.实时大屏页面介绍

* 3.ReidsConfig配置文件开发

* 4.HbaseUtil区间查询

* 5.通用连接对象

* 6.国内指数查询

* 7.板块查询

* 8.涨幅数据查询

* 9.涨停跌停数查询

* 10.成交量对比

* 11.涨跌幅度查询

* 12.个股分时列表查询

* 13.股票搜索（模糊查询）

* 14.个股分时详情页面

* 15.日K线数据查询

* 16.日K线数据查询-2

* 17.个股分时详情

* 18.个股秒级行情

* 19.个股描述

* 20.定时任务-更细周K和月K

* 21.定时任务回顾.

* 22.课程回顾

* day10/

* 1.课程回顾和安排

* 2.部署介绍

* 3.深市数据采集部署

* 4.前后端本地联调

* 5.web项目部署

* 6.前端UI部署

* 7.实时流处理项目打包

* 8.环境准备

* 9.实时流处理项目部署

* 10.BI整合mysql-个股成交金额TOP10

* 11.BI整合druid-今日指数top4（成交量）

* 12.BI整合Kylin-还手率

* 13.开发模式介绍

* 14.课程总结-服务启动命令

* 15.课程总结-总体技术架构

* 16.课程总结-优化

* 17.课程总结-项目介绍

* 18.课程总结-自我介绍

* 19.课程总结-jvm介绍

* 20.课程总结-扩展

* 阶段七工业大数据项目实战/

* 第一章大数据一站制造项目/

* 第一章/

* 1.一站制造第一章总体内容概述+学习目标

* 2.工业互联网和制造业概述

* 3.加油站和相关实施名词说明

* 4.大数据在加油站领域的应用

* 5.一站制造项目核心业务流程图

* 6.一站制造项目架构和技术架构流程

* 7.docker容器服务安装

* 8.dcoker的linux命名空间

* 9.关于虚拟网桥与虚拟网卡详细讲解

* 10.docker网络的四种模式与bridge模式

* 11.oracle安装与使用客户端访问

* 12.docker安装hadoop+hive+sqoop+spark thrift server说明

* 13.一站制造项目第一章总结

* 第二章/

* 1.第二章数仓建模与数据采集课程目标

* 2.维度建模方法论

* 3.一站制造数仓分层详细说明

* 4.一站制造数仓简单回顾+业务系统和查看业务系统表

* 5.全量数据和增量数据详细情况分析

* 6.yarn的容量调度中设置appmaster可申请最大内存容量说明

* 7.mapreduce运行时以uber模式运行+uber相关参数说明

* 8.实现sqoop从oracle中导入单表数据到hdfs上

* 9.sqoop导入数据解决数据导入增加问题+两种解决方案

* 10.shell实现sqoop增量导入数据需求与分析

* 11.全量和增量导入数据的脚本

* 第三章/

* 1.第二章数据采集重要内容回顾

* 2.ODS&DWD层建设课程目标与项目规范

* 3.ODS层分别使用sparksql&hive引擎创建hvie表

* 4.ODS层自动创建表实现思路分析

* 5.实现ODS层自动创建表功能的准备工作

* 6.实现ODS层创建表工具类分析

* 7实现ODS层创建表读取全量和增量表工具类实现

* 8.实现ODS层得到oracle和hive连接工具类mp4

* 9.查询出oracle中表对应的元数据信息和创建列对象

* 10.编写表对象和表对象中三个特殊方法(给列对象集合添加列对象、根据列名获得列对象、得到所有列名集合)

* 11.编写从oracle中查询出表的元数据信息(包含列的元数据信息)工具类

* 12.oracle获得元数据信息工具类测试

* 13.使用动态拼接sql的方式创建表

* 14.ods层自动创建表过程详细分析

* 15.性能监控工具jprofile

* 16.简历编写方法与复习思路

* 第四章/

* 1.数仓ODS层&DWD层建设总结回顾

* 2.数仓维度层建设课程目标与维度建模理论回顾

* 3.实现地理区域查询省和市和区和乡镇数据建模+mr执行查询的流程分析

* 4.mapreduce执行过程和spark逻辑和物理执行计划

* 5.地理区域维度建模实现

* 6.日期维度建模

* 7.传入年份参数得到当年的所有的日期的id集合

* 8.日期维度生成

* 9.组织机构维度+服务网点维度+仓库维度

* 10油站维度建模

* 11.扩展维度

* 第五章/

* 1.解决笛卡尔积中存在两表关联无条件

* 2.第四章维度层建设重点内容回顾

* 3.DWB事实指标层建设简介

* 4.呼叫中心事实表建模(上)

* 5.呼叫中心事实表建模(下)

* 6.呼叫中心事实表建表和加载数据

* 7.油站事实表建模与新增油站计算方式

* 8.工单事实表建模

* 9.安装事实表建模

* 10.维修事实表建模

* 11.扩展指标事实表

* 12.客户回访指标分析

* 13.任务调度编排

* 第六章/

* 1.数仓DWB事实指标层重点内容回顾

* 2.服务类型中工单主题建模

* 3.服务类型中维修主题建模

* 4.服务类型中回访主题建模

* 5.服务类型中派单主题建模

* 6.服务类型中费用主题建模

* 7.客户分类中客户主题建模

* 8.保内良品和保内不良品核销建模

* 9.第三方服务商数据说明

* 10.运营部存储的部门或新业务需求数据+hbase的rowkey设计扩展

* 11.运营部主题简介+数仓分层对比阿里数仓分层

* 12一站制造项目总结(上)

* 13.一站制造项目总结(下)

* 阶段八大数据-星途车联网/

* 第一章大数据-星途车联网/

* day01/

* 01.【星途车联网】day01-项目的内容介绍及章节规划

* 02.【星途车联网】day01-车联网行业介绍

* 03.【星途车联网】day01-车联网项目探索和发现

* 04.【星途车联网】day01-项目整体架构

* 05.【星途车联网】day01-项目技术架构及逻辑架构图

* 06.【星途车联网】day01-数据流转过程分析

* 07.【星途车联网】day01-服务器及数据量的计算和数据格式分析

* 08.【星途车联网】day01-项目环境的搭建

* 09.【星途车联网】day01-解析简单的json字符串

* 10.【星途车联网】day01-解析复杂的json字符串

* 11.【星途车联网】day01-解析复杂的json字符串优化后的写法

* 12.【星途车联网】day01-知识点总结

* day02/

* 01.【星途车联网】day02-知识点回顾

* 02.【星途车联网】day02-分析数据采集上报过程以及编写kafka的生产者和消费者代码

* 03.【星途车联网】day02-流式处理模块的初始化

* 04.【星途车联网】day02-梳理实时ETL开发的流程步骤

* 05.【星途车联网】day02-编写时间处理的工具类

* 06.【星途车联网】day02-工具类的编写

* 07.【星途车联网】day02-json解析工具类的编写

* 08.【星途车联网】day02-flink流式处理程序消费kafka数据测试

* 09.【星途车联网】day02-对流式计算程序的任务进行封装公共类

* 10.【星途车联网】day02-etl任务的设计及反压的原理介绍

* 11.【星途车联网】day02-知识点总结

* day03/

* 01.【星途车联网】day03-知识点回顾

* 02.【星途车联网】day03-消费kafka数据过滤出来正常数据和异常数据

* 03.【星途车联网】day03-StreamingFileSink的介绍

* 04.【星途车联网】day03-StreamingFileSink的使用案例

* 05.【星途车联网】day03-使用StreamingFileSink的将正常和异常数据分别写入到hdfs中

* 06.【星途车联网】day03-hive创建分区映射hdfs数据所在目录加载到hive表中

* 07.【星途车联网】day03-回顾rowkey的设计原则和设计方法

* 08.【星途车联网】day03-将数据写入到hbase的流程分析

* 09.【星途车联网】day03-将数据实时的写入到hbase中

* 10.【星途车联网】day03-buffredmuator写入优化

* 11.【星途车联网】day03-使用优化后的buffredmuator方案将数据实时写入到hbase表中

* 12.【星途车联网】day03-buffredmuator源码分析

* 13.【星途车联网】day03-知识点总结

* day04/

* 01.【星途车联网】day04-知识点回顾

* 02.【星途车联网】day04-回顾hbase的预写日志

* 03.【星途车联网】day04-回顾hbase的编码和压缩

* 04.【星途车联网】day04-Phoenix的介绍

* 05.【星途车联网】day04-Phoenix的常用操作

* 06.【星途车联网】day04-hbase的二级索引介绍

* 07.【星途车联网】day04-车辆明细表数据的实时写入

* 08.【星途车联网】day04-基于车辆明细表数据进行数据统计

* 09.【星途车联网】day04-zepplin介绍和使用场景

* 10.【星途车联网】day04-zepplinUI介绍

* 11.【星途车联网】day04-zepplin与mysql和hive的整合案例

* 12.【星途车联网】day04-zepplin集成Phoenix进行即席查询

* 13.【星途车联网】day04-知识点总结

* day05/

* 01.【星途车联网】day05-知识点回顾

* 02.【星途车联网】day05-驾驶行程存储分层设计

* 03.【星途车联网】day05-驾驶行程业务实现逻辑分析

* 04.【星途车联网】day05-驾驶行程业务添加水印处理

* 05.【星途车联网】day05-驾驶行程采样数据自定义窗口开发

* 06.【星途车联网】day05-驾驶行程采样数据实时写入到hbase中

* 07.【星途车联网】day05-驾驶行程数据处理分析

* 08.【星途车联网】day05-驾驶行程数据自定义窗口开发

* 09.【星途车联网】day05-驾驶行程数据实时写入到hbase

* 10.【星途车联网】day05-驾驶行程数据离线同步到mysql数据库

* 11.【星途车联网】day05-知识点总结

* day06/

* 01.【星途车联网】day06-知识点回顾

* 02.【星途车联网】day06-电子围栏的介绍和应用场景

* 03.【星途车联网】day06-电子围栏的数据结构介绍

* 04.【星途车联网】day06-电子围栏业务开发流程梳理

* 05.【星途车联网】day06-电子围栏业务开发步骤编写

* 06.【星途车联网】day06-将电子围栏规则应用到原始数据流

* 07.【星途车联网】day07-测试两点之间距离的工具类

* 08.【星途车联网】day07-将电子围栏规则与原始数据进行拉宽操作并测试

* 09.【星途车联网】day07-分析电子围栏状态的切换逻辑

* 10.【星途车联网】day07-实现电子围栏状态的切换逻辑并测试

* 11.【星途车联网】day07-实现电子围栏分析结果写入到mysql并进行测试

* 12.【星途车联网】day07-知识点总结

* day07/

* 01.【星途车联网】day07-知识点回顾

* 02.【星途车联网】day07-在线实时故障分析业务介绍

* 03.【星途车联网】day07-表结构介绍及高德地图解决逆地理坐标问题

* 04.【星途车联网】day07-在线实时异常告警分析流程

* 05.【星途车联网】day07-异步io实现高德逆地理位置查询的逻辑梳理

* 06.【星途车联网】day07-异步io实现高德逆地理位置查询并测试

* 07.【星途车联网】day07-实现自定义窗口函数区分出来异常字段和正常指标字段

* 08.【星途车联网】day07-将车辆基础信息数据应用到原始数据流流

* 09.【星途车联网】day07-在线实时故障分析结果实时写入到数据库中

* 10.【星途车联网】day07-知识点总结

* day08/

* 01.【星途车联网】day08-知识点回顾

* 02.【星途车联网】day08-自定义告警规则业务分析和数据存储

* 03.【星途车联网】day08-存储介质mongodb的介绍

* 04.【星途车联网】day08-mongodb服务的部署

* 05.【星途车联网】day08-mongodb数据库及集合的常用操作

* 06.【星途车联网】day08-mongodb高阶操作

* 07.【星途车联网】day08-mongodb的索引介绍

* 08.【星途车联网】day08-mongodb的高阶操作

* 09.【星途车联网】day08-js实现mongodb的id自增操作

* 10.【星途车联网】day08-基于地理位置的查询

* 11.【星途车联网】day08-mongodb的客户端操作

* 12.【星途车联网】day08-知识点总结

* day09/

* 01.【星途车联网】day09-知识点回顾

* 02.【星途车联网】day09-使用jdbc对mongodb的数据进行添加或更新

* 03.【星途车联网】day09-使用jdbc对mongodb的数据进行删除及高级查询

* 04.【星途车联网】day09-mongodb的副本集原理及演示

* 05.【星途车联网】day09-自定义告警规则业务分析及相关表结构介绍

* 06.【星途车联网】day09-自定义告警规则业务代码实现步骤分析

* 07.【星途车联网】day09-自定义告警规则业务代码实现水印及自定义窗口操作

* 08.【星途车联网】day09-加载自定义告警规则数据并进行广播

* 09.【星途车联网】day09-梳理自定义告警规则应用到原始拉宽数据流的逻辑

* 10.【星途车联网】day09-自定义规则计算表达式工具类

* 11.【星途车联网】day09-知识点总结

* day10/

* 01.【星途车联网】day10-知识点回顾

* 02.【星途车联网】day10-将自定义告警规则应用到数据流拉宽分析结果模型数据

* 03.【星途车联网】day10-分析数据写入到mongodb的逻辑

* 04.【星途车联网】day10-分析数据写入到mongodb的实现

* 05.【星途车联网】day10-分析数据写入到mongodb的测试

* 06.【星途车联网】day10-离线指标分析业务介绍及课程目标

* 07.【星途车联网】day10-jdbc六大对象介绍以及各自使用场景

* 08.【星途车联网】day10-使用jdbcinputformat和jdbcoutformat案例演示

* 09.【星途车联网】day10-知识点总结

* day11/

* 01.【星途车联网】day11-知识点回顾

* 02.【星途车联网】day11-编写数据汇总计算准备率实现逻辑

* 03.【星途车联网】day11-编写数据汇总计算准备率写入到mysql表中

* 04.【星途车联网】day11-多维度分析数据准备率写入到mysql表中

* 05.【星途车联网】day11-自定义告警类型和告警状态统计分析

* 06.【星途车联网】day11-车联网项目数仓分层

* 07.【星途车联网】day11-车辆动态监测分析

* 08.【星途车联网】day11-BI分析及介绍

* 09.【星途车联网】day11-superset入门案例

* 10.【星途车联网】day11-前端页面介绍

* 11.【星途车联网】day11-知识点总结

* day12/

* 01.【星途车联网】day12-知识点回顾

* 02.【星途车联网】day12-回顾flink应用程序的部署方式以及flinkonyarn部署

* 03.【星途车联网】day12-车联网任务分类的总结

* 04.【星途车联网】day12-ds介绍及安装部署

* 05.【星途车联网】day12-ds定义并调度任务

* 06.【星途车联网】day12-ds基本使用和项目管理界面操作

* 07.【星途车联网】day12-扩展了解充电桩业务

* 08.【星途车联网】day12-项目总结1

* 09.【星途车联网】day12-项目总结2

* 阶段九 BAT直通车/

* 第一章大数据-大厂面试题/

* 阿里巴巴面试题/

* 0.阿里巴巴大数据面试题学习目标

* 1. 大表join小表报错怎么解决

* 2. 自定义函数udf、udaf、udtf的区别

* 3. hive的元数据保存方式有哪些，有什么特点

* 4. 内部表与外部表的区别

* 5. 为什么建议使用外部表

* 6. insert into 与insert overwrite 的区别

* 7. Hive的条件判断函数有哪些

* 8. Hive表的特点

* 9. spark提交job流程

* 10. spark提交任务的时候--jars是什么意思

* 11. Hadoop的Wordcount详解

* 12. spark做过什么优化，原理是什么

* 13. 反转链表

* 14.实现堆 push pop min复杂度为O(1)

* 15. 10G文件只有32M内存怎么判断相似数据

* 16. Redis的数据结构

* 17. 什么是分布式系统

* 18. NOSQL为啥比SQL快

* 19. B+ 树与B树的区别

* 20. 输入ping ip后发生了什么

* 21. 很多观测站的数据怎么用Hive读取并写入

* 22. 元数据的理解、作用和影响

* 23. 对MaxCompute的了解并与常见的大数据系统做对比

* 24. Hadoop2.x做了哪些改动

* 25. spark的shuffle过程

* 26. JVM垃圾收集器

* 27. shuffle过程中数据写入到哪个buffer

* 28. Executor、core、task之间的关系

* 29. hiveSQL累计求和

* 30.说说arraylist、vector、linkedlist存储性能和特性

* 31.treeset的特性

* 32.给出二叉树列出先序、中序、后序遍历

* 33.第二高的薪水

* 百度面试题/

* 1. spark缓存数据缓存到了哪里

* 2. Linux常用命令

* 3. 除了这些还有其他的哪些技术

* 4. 自定义UDF、UDTF函数

* 5. zookeeper选举过程

* 6. 什么是脑裂

* 7. hdfs数据写入报错，从三个方向解答

* 8. hdfs的三副本怎么保持一致性

* 9. mapper与reducer个数的指定

* 11. hbase行键的设计原则

* 12. HBASE的日志合并树是什么

* 13. spark的WordCount

* 14. kafka与传统消息队列的区别

* 15. 简述平衡二叉树的插入删除操作

* 16. JDK8的新特性

* 17. 说说spark的RDD

* 18. Combiner函数的使用发生在哪个阶段，怎么使用

* 19. HBASE删除一条数据的过程

* 20. hive数据倾斜的原因以及解决方法

* 21. paxos的协议主要目的是什么

* 22. Hadoop、spark、MPI的特点以及使用场景

* 23. 解释TCP建立过程，并用函数解释交互过程

* 24. 说一下异常

* 25. kafka的message包含哪些信息

* 26. kafka的数据存储在哪

* 27. java的NIO介绍一下

* 28.flume丢包问题

* 29.不采用flume采集日志，用logger4j采集日志的优缺点

* 30.hive笔试题

* 滴滴面试题/

* 今日目标

* 1. 怎么保证多请求的顺序性

* 2. 僵尸进程和孤儿进程

* 3. fork函数的底层实现过程

* 4. jvm内存布局

* 5. 什么情况发生栈溢出

* 6. 什么是双亲委派模型，以及优点

* 7. 堆排序求TOPN

* 8. 怎么解决过拟合问题

* 9. L1和L2的正则区别

* 10. yarn中的APPmaster挂掉了怎么办

* 11. MapReduce慢的原因

* 12. hdfs小文件优化方法

* 13. hdfs的压缩算法和使用场景

* 14.hive里面的几种排序特点

* 15. hive底层与数据库交互原理

* 16. hive如何进行权限控制

* 17. hivesql笔试题

* 18. application的并行度设置

* 19.spark提交任务的参数

* 20.spark中的数据倾斜有什么好的解决方案

* 21. flink的组件有哪些

* 22. 你们的flink集群规模有多大

* 23.flink的基础编程模型是什么

* 24. flink集群的角色有哪些，以及作用是什么

* 25. 设计一个大型网站架构

* 26. hbase的compaction用户和在什么时候触发

* 27. 给定a、b2个大文件，匹配里面的URL

* 28.每天百亿数据写入hbase，怎么保证写入

* 29. 列举hbase的优化方法

* 30.kafka怎么保证数据不丢失

* 京东面试题/

* 1. 二叉树的逐层打印

* 2. 归并排序之java实现

* 3. 一根绳子要少一个小时，怎么计算半个小时

* 4. 快速排序java实现

* 5. 1亿个数据找前1000条最大的数据

* 6. 谈谈用MapReduce求topk

* 7. mr和spark的shuffle区别

* 8. hiveSQL的执行顺序

* 9. 统计所有用户和活跃用户的个数以及年龄

* 10. 统计10月用户第一次购买的商品信息

* 11. rdd与dataset的区别

* 12. Spark为什么分为transformation和action

* 13. 将将scala的伴生对象

* 14. 谈谈scala的隐式转换

* 15. jobmanager在集群中扮演了什么角色

* 16. flink里面slot和parallelism的区别

* 17. flink分布式快照的原理是什么

* 18.说说flink的序列化

* 19. 用Linux命令查找指定内容的文件

* 20. 说出几个git的常用命令

* 21. kafka快的原因，零拷贝的原理

* 22. 简单讲讲direct的设计思路

* 23. 介绍一下flume的架构

* 24. 用Linux命令对一个文件进行处理

* 25. TCP的三次握手和四次挥手过程

* 26. 怎么保证在kill-9的情况下数据不丢失

* 27. 数据看看的锁有哪些

* 28. URL和uri的区别

* 29.sleep和yield的区别

* 30.snn的工作机制

* 31.运行异常和受检异常有什么不同

* 32.flink和storm反压有什么不同

* 美团面试题/

* 0.美团大数据面试题学习目标

* 1. 数仓命令规范

* 2.拉链表的使用场景

* 3. 数据库和数据仓库的区别

* 4. 有什么维表

* 5. 数据源有哪些

* 6. 最大的表和数据量是多少

* 7. 用什么调度工具

* 8. 数仓数据抽取方法

* 9. datax比sqoop快

* 10. CDH集群搭建

* 11. Redis和zookeeper的分布式锁

* 12. zookeeper如何保持数据一致性

* 13. 项目的解决方案及问题

* 14. 流式计算和离线计算的选取

* 15. OLAP引擎有哪些

* 16. 谈谈对MPP数据库的了解

* 17. 谈谈对Clickhouse的了解

* 18. kylin数据库原理

* 19. APP怎么对外提供服务的

* 20. 缓慢变化维的处理方式有哪些

* 21. datax存储数据遇到emoji表情报错该怎么解决

* 22. 为什么要用到大数据平台

* 23. 维度建模和范式建模的区别

* 24. 从0-1构建数仓

* 25. 数据模型如何构建

* 26. 如何保证数据质量

* 27. datax与sqoop的优缺点

* 28. 集市层和公共层

* 29. on 和 where的区别

* 30. flink为什么要checkpoint机制

* 31. flink如何保证Exactly_once的原理

* 32. flink的背压机制

* 33. spark和flink对比

* 34. flink的join操作

* 腾讯面试题/

* 1.学习目标和分哪几个模块

* 2.数组的子数组最大值代码实现

* 3.递归算法反转字符串

* 4. 冒泡排序代码实现

* 5. 二叉树的java代码实现

* 6. hdfs的操作命令

* 7. 集群节点的上线和下线

* 8.Hadoop的namenode宕机怎么办

* 9.联邦的实现

* 10.Hadoop的序列化和反序列化以及定义bean对象的步骤

* 11.MapReduce的几种排序以及发生的阶段

* 12.你们的数据量大概是多少

* 13.讲讲你的优化方法

* 14.hiveSQL怎么计算map个数

* 15. 怎么查看hive的自带函数，以及使用命令

* 16.hive命令操作

* 17.hive支持哪些数据类型

* 18.分区表解决需求

* 19.hive自带函数split用法

* 20.dataframe和rdd的区别

* 21.spark的数据倾斜问题怎么解决

* 22.spark的2种shuffle工作流程

* 23.checkpoint的操作

* 24.rdd的弹性表现在哪几点

* 25.flink什么情况才会生成operator chain

* 26.flink 的三层图指的是什么

* 27.flink计算资源是如何调度的

* 28.简述flink的数据抽象和交换过程

* 29.简述flinkSQL是如何实现的

* 30.kafka为什么这么快

* 31.hbase和hive的区别

* 网易面试题/

* 1.本章面试题介绍

* 2.N级台阶的递归算法实现

* 3.大型网站在架构上应当考虑哪些问题

* 4.你用过的前端优化技术有哪些

* 5.领域模型、失血模型、贫血模型、充血模型

* 6.海量数据统计前10个词

* 7.二分查找法思想和实现

* 8.判断一个单词里面的字母是否全都不同

* 9.找回文素数代码实现

* 10.如何配置安装一个Apache Hadoop

* 11.Hadoop集群中有哪些进程

* 12.描述MapReduce中shuffle阶段的工作流程

* 13.hdfs的读和写流程

* 14.Hadoop的几个默认端口号及其含义

* 15.源码解析Hadoop中的recordreader和split以及block之间的关系

* 16.举例2种hive的优化措施

* 17.根据需求统计结果

* 18.聊聊hive的索引

* 19.spark提交作业流程

* 20.stage，task和宽窄依赖

* 21.spark的内存模型

* 22.spark何时缓存数据

* 23.sparkstreaming处理偏移量的管理方法

* 24.spark中ML和MLLib的区别和联系

* 25.spark如何自定义partitioner分区器

* 26.flink相比传统sparkstreaming的区别

* 27.说说flink中的窗口

* 28.说说flink的内存管理是如何做的

* 29.flink的延迟高，怎么解决这个问题

* 30.hbase中的scan对象的setcache和setbatch方法的使用

* 31.hbase的内部机制是什么

* 32.如何提高hbase客户端的读写性能

* 33.kafka生产数据后消息会发生偏移吗

* 小米面试题/

* 1.小米大数据面试题介绍

* 2.针对排好序的数组进行去重操作代码实现

* 3.有一个元素超过数组的半数以上，找到这个元素

* 4.什么是XSS、什么是SQL注入、什么是CSRF攻击

* 5.谈谈TDD的好处

* 6.归并排序之Java实现

* 7.给出5个数字12345的全排列

* 8.怎么在海量数据中找出重复次数最多的一个

* 9.根据日起计算多少天

* 10.约瑟夫环

* 11.Hadoop中有哪些重要的配置文件，作用是什么

* 12.Hadoop实现join的几种方法

* 13.MapReduce推测执行算法以及原理

* 14.fileinputformat切片机制

* 15.maptask的工作机制

* 16.hive笔试题

* 17.分组求前10名

* 18.讲讲hive里面的jvm重用

* 19.如何理解spark的RDD数据结构分区

* 20.广播变量使用需要注意什么

* 21.sparkstreaming的反压怎么处理

* 22.spark On mesos中什么是粗粒度什么是细粒度以及优缺点

* 23.spark中版本的意思，以及spark1.6.0数字代表什么意思

* 24.spark技术有哪些组件，每个功能是什么

* 25.介绍一下对unfied memory manager内存管理的理解

* 26.jobmanager在集群启动中起到什么作用

* 27.flink中的分布式快照机制如何实现

* 28.hbase中rowfilter和bloomfilter的原理

* 29.请说明kafka的消息投递保证机制

* 30.协同过滤算法的底层实现原理

* 阶段十大数据常见架构与设计-大厂架构/

* 第一章大数据-大厂架构/

* 小米架构/

* 00_目录和学习目标

* 01_离线数据仓库架构

* 02_维度数据建模

* 03_联机分析处理

* 04_OLAP分类和逻辑概念

* 05_联机分析处理性能

* 06_实时数仓与离线数仓的对比

* 07_kappa流批一体架构介绍

* 08_kappa流批一体架构流程的2个阶段

* 09_离线架构v1.0

* 10_混合流批一体架构v2.0

* 11_实时kappa架构v3.0

* 12_环境准备

* 13_环境演示

* 14_数仓案例架构

* 15_案例维度同步和事实表拉宽处理

* 16_案例明细数据进行汇总处理

* 17_总结

* 美团架构/

* 00_目标和目录

* 01_美团点评的挑战和解决方案

* 02_离线数据仓库

* 03_系统架构之迁移、层层转换、数据的冷热温

* 04_划分维度表、事实表和调度系统

* 05_系统监控

* 06_准实时数仓

* 07_实时数仓和离线数仓、准实时数仓的方案对比

* 08_基于flink体系的实时数仓方案

* 09_基于Mysql+Canal+kafka的CDC方案

* 10_基于MySQL+FlinkCDC+FlinkTable

* 11_分层体系

* 12_环境的安装部署

* 13_数据类型和连接器

* 14_FileSystem连接器

* 15_Kafka连接器

* 16_FlinkStreaming SQL入门案例

* 17_介绍综合案例的表结构和数据生成器

* 18_执行代码生成表结构和数据

* 19_创建ODS层数据库

* 20_创建DWD层和DWS层数据表

* 21_总结

* 平安架构/

* 00_学习目标

* 01_离线数据仓库架构

* 02_维度数据建模

* 03_联机分析处理

* 04_OLAP分类和逻辑概念

* 05_联机分析处理性能

* 06_实时数仓与离线数仓的对比

* 07_Lambda流批混合架构

* 08_Lambda架构概览

* 09_Lambda三层架构

* 10_Lambda架构常用技术选型

* 11_平安整体架构模型

* 12_平安大数据lambda架构的落地

* 13_Lambda架构的案例需求和模块创建

* 13_环境准备

* 14_环境演示

* 14_离线处理的公共模块导入

* 15_离线批处理案例实现

* 16_实时流处理案例实现

* 17_总结

本篇 ¥29.00 · 开通 VIP 更划算

查看价格与购买