针对目前很多经过培训或自学后任就业困难、薪资低,以及刚入行IT行业1-3年的初级程序员,薪资提升慢或者难以提升的现状,传智播客向全行业重磅推出“大数据精英进阶课
* 阶段一 数据-数据中台/
* 第一章 大数据-数据中台/
* 1-第一章 初识数据中台/
* 1.数据中台课程大纲概述
* 2.数据中台概述和历史来源
* 3.从数据中台故事了解数据中台真正解决的问题
* 4.数据中台需要具备的能力
* 5.数据中台大数据架构选型
* 6.数据质量管理ApacheGriffin概述
* 7.通过讲解Griffin安装熟悉大数据组件与Griffin的关系
* 8.Griffin软件详解+版本区别带来的功能差异
* 9.数据质量监控Hive数据
* 10.数据质量监控任务调度与指标度量看板
* 11.数据质量监控实时数据kafka任务与日志查看
* 12.数据中台第一章总结(day01总结)
* 第二章 数据治理Atlas/
* 1.课程目标+数据治理概述
* 2.数据治理分类+数据治理工具
* 3.atlas安装与导入样本数据说明
* 4.atlas高可用与atlas架构
* 5.atlas基本搜索操作
* 6.atlas高阶搜索(一)
* 7.atlas高阶搜索(二)mp4
* 8.atlas高阶操作(三)
* 9.词汇与分类(需先导入数据再测试)
* 10.类型系统与总结
* 第三章 元数据管理/
* 1.课程目标+业务元数据概述
* 2.元数据与数据分类关联关系
* 3.数据中台与元数据管理
* 4.数据质量内容与质量流程
* 5.atlas业务元数据管理
* 6.atlas中的hive数据模型
* 7.atlas集成hive hook
* 8.血缘关系与hive元数据导入
* 9.atlas集成sqoop元数据
* 10.atlas集成hbase元数据
* 11.atlas集成kafka元数据
* 12.数据生命周期管理概述与流程
* 13.falcon简介与工作方式
* 14.falcon原理与任务调度
* 15.atlas集成falcon元数据
* 第四章 数据中台企业应用/
* 1.数据中台第四天课程目标与atlas安全SSL和服务认证
* 2.安全认证JAAS认证与spengo的http认证和客户端认证
* 3.atlas认证方式详细讲解
* 4.atlas授权模型和简单授权者
* 阶段二 大数据运维课/
* 第一章 大数据运维课程/
* 大数据运维课程介绍/
* 01-01课程学习目标
* 01-02-大数据运维岗位简介2
* 01-03-为什么要学习这门课程
* 01-04-岗位要求的技能栈
* 01-05-课程学习的内容和方式
* 运维相关概念介绍/
* 00-前言
* 01-01-01-塔式服务器介绍
* 01-01-02-机架服务器
* 01-01-03-云服务器
* 01-02-机柜和机房的概念
* 01-03-交换机
* 01-04-01-CPU性能指标
* 01-04-02-内存相关指标
* 01-04-03-硬盘相关指标以及最终硬件配置的选择
* 01-05-第一章总结
* 02-01-01-磁盘规划-普通模式&JBOD模式
* 02-01-02-RAID0
* 02-01-03-RAID1
* 02-01-04-RAID01&RAID10
* 02-01-05-其他RAID和最终磁盘方案的选择
* 02-01-磁盘规划-普通模式&JBOD
* 02-02-网络规划&第二章总结
* 03-01-域名
* 03-02-域名为何要备案
* 03-03-HTTPS&第三章总结
* 04-01-预发布环境
* 04-02-上线流程
* 04-03-自动化CICD&第四章总结
* 05-01-缓存
* 05-02-消息队列
* 05-03-负载均衡&第五章总结
* 06-高可用的概念
* 07-微服务的概念
* 08-结语
* 云平台/
* 01-01-云平台的概念
* 01-02-云平台的分类
* 01-03-主流公有云平台有哪些
* 01-04-三种云服务的概念
* 01-05-公有云对于企业或者个人的意思是什么
* 02-阿里云介绍
* 03-01-01-前置概念-地域
* 03-01-02-前置概念-可用区
* 03-01-03-前置概念-网络类型
* 03-01-04-前置概念-安全组
* 03-02-云服务器-阿里云上的云监控介绍
* 03-02-云服务器-创建1-实例基本设置
* 03-02-云服务器-创建2-网络和安全组设置
* 03-02-云服务器-创建3-系统设置和分组设置
* 03-02-云服务器-创建4-远程连接云服务器
* 03-03-云数据库RDS
* 03-04-云上NoSQL(其他云数据库)
* 03-05-云上对象存储OSS
* 04-其他服务的概念介绍
* 05-EMR中的Kafka和独立购买的Kafka服务有什么区别吗
* 06-AWS介绍
* 07-总结
* Grafana/
* 01-Grafana简介
* 02-时序的概念
* 03-Grafana安装
* 04-配置数据源
* 05-01-导入仪表板
* 05-02-01-创建仪表板和图形详细配置1之查询配置
* 05-02-02-可视化的详细配置和其他图表配置细节
* 05-03-补充-仪表板变量
* 05-04-丰富仪表板
* 06-01-其他功能介绍
* 07-用户-权限的管理
* zabbix监控大数据集群/
* 01-01-课程目的&Hadoop中的监控数据来源介绍
* 01-02-kafka的数据来源
* 03-01-为大数据主机安装zabbix-agent并在页面中配置
* 03-02-针对HTTP形式的JMX接口的数据采集
* 03-03-非HTTP形式的Kafka监控使用zabbix自带的jmx采集功能
* zabbix/
* 01-zabbix介绍
* 02-zabbix安装
* 03-01&02-基础设置和页面概览
* 03-03-用户和用户组
* 03-04-在其他机器单独安装zabbix-agent
* 03-05-监控项-触发器-模板-应用集
* 03-05-在zabbix-web-ui中添加刚刚安装agent的主机
* 03-06-图形配置
* 03-07-第三章小结
* 04-01-02-问题事件和问题确认
* 04-03-动作的概念和配置
* 04-03-动作的概念和配置-origin
* 04-04-报警媒介配置
* 04-05-配置用户的报警媒介信息
* 04-06&07-测试报警邮件的发送和恢复邮件的发送
* 04-08-第四章总结
* 05-01-监控项中配套的key(键值)
* 05-02-监控项的详细配置
* 05-03-触发器的详细配置
* 05-04-模板的配置和创建
* 05-05-权限管控的回顾和第五章总结
* 06-01&02-准备java代码和python脚本
* 06-03-用户自定义key的配置
* 06-04-在页面中配置监控项来使用自定义的key
* 06-05&06定义触发器和测试报警
* 06-06-课程总结
* 大数据基础环境准备和集群部署/
* 01-集群规划
* 02-01-常见操作系统
* 02-02-节点创建-01-VMWARE网络设置
* 02-02-节点创建-02-VMWARE创建虚拟机
* 02-02-节点创建-03-基于堡垒机复制出其它节点
* 02-02-节点创建-04-定制节点硬件添加硬盘和修改内存
* 02-02-节点创建-05-什么是堡垒机
* 02-03-01-配置节点IP
* 02-03-02-配置主机名和主机名映射和FQDN
* 02-03-03-磁盘挂载和格式化
* 02-03-04-创建用户用户组和权限讲解
* 02-03-05-包管理工具RPM和YUM
* 02-03-06-如何关闭IPv6
* 03-01-01-DNS介绍
* 03-01-02-DNS记录的类型
* 03-01-03-企业中DNS服务器在大规模集群中的应用
* 03-01-04-自行搭建DNS服务
* 03-02-01-防火墙介绍
* 03-02-02-企业中防火墙的实施情况
* 03-02-03-Linux自带防火墙Firewalld的简单操作
* 03-02-04-SELinux
* 03-03-01-时间同步的概念
* 03-03-02-配置NTP时间同步
* 03-04-SSH免密登录的配置和原理
* 03-05-FTP和SFTP
* 04-01-JDK部署和软链接硬链接
* 04-02-Hadoop部署
* 05-Part1总结
* 阶段三 基于AWS的云上数仓构建/
* 第一章 基于AWS的云上数仓构建/
* 第一章/
* 00-课程学习目标和前置技能需求
* 1.1-1.2-云平台的概念简介
* 1.3-两种云平台的分类
* 1.4-主流的公有云平台有哪些
* 1.5-云上的3种常见服务类型
* 1.6-第一章总结
* 第二章/
* 2.1.1-IaaS服务-EC2介绍
* 2.1.2-IaaS层-VPC介绍
* 2.1.3-IaaS层-Direct Connect服务
* 2.2.1-PaaS层-S3简介
* 2.2.2-2.2.4-PaaS层其它常见服务介绍
* 2.3.1-SaaS层-RDS介绍
* 2.3.2-SaaS层-DynamoDB介绍
* 2.3.3-SaaS层-Redshift介绍
* 2.3.4-SaaS层-AWS Glue介绍
* 2.3.5-SaaS层-AWS EMR介绍
* 2.3.6-SaaS层-Kinesis介绍和第二章总结
* 第三章/
* 3.1-前期准备-AWS账户
* 3.2-前期准备-AWS编程访问密钥对
* 3.3-前期准备-AWS CLI 配置
* 3.4-前期准备-准备安全组
* 3.5-前期准备-准备S3存储桶
* 3.6-前期准备-准备VPC终端节点
* 3.7-前期准备-项目架构介绍和第三章简单总结
* 第四章/
* 4.1and4.2-RDS概念回顾和创建
* 4.3-连接RDS
* 4.4-修改RDS的参数
* 第五章/
* 5.1-5.2-Glue-Glue的概念和执行原理介绍
* 5.3.1-Glue-元数据目录-手动添加csv文件的元数据表
* 5.3.2-1-Glue-元数据目录-爬网程序添加CSV文件元数据表
* 5.3.2-2-Glue-元数据目录-爬网程序添加RDS表
* 5.3.3-1-Glue-元数据目录-内置分类器概念
* 5.3.3-2-Glue-元数据目录-自定义CSV分类器
* 5.3.3-3-Glue-元数据目录-自定义JSON分类器
* 5.4.1-Glue-ETL测试任务CSV转JSON
* 5.4.2-2-Glue-ETL测试任务2-将结果写入到RDS
* 5.4.2-Glue-ETL测试任务2-自定义数据处理逻辑
* 5.5.1-Glue-工作流程的概念和JOB1和2的创建
* 5.5.2-Glue-工作流程的创建和运行
* 第六章/
* 6.1-EMR-概念回顾
* 6.2-EMR-EMR在课程中的定位
* 6.3.1-EMR-详细讲解EMR集群的创建和细节
* 6.3.2-EMR-集群配置参数的使用方法
* 6.3.3-EMR-创建步骤运行集群并提交JOB
* 6.4-EMR-第六章总结
* 第七章/
* 7.1-7.2-Redshift-概念回顾和特点
* 7.3-Redshift-IAM角色创建和集群创建详解
* 7.4-Redshift-加载示例数据体验
* 第八章/
* 8.1.1-Redshift-数据仓库架构概述
* 8.1.2-Redshift-性能概述
* 8.1.3-Redshift-列式存储概述
* 8.1.4-Redshift-内部组件和功能概览
* 8.2-Redshift-数据库常用日常操作
* 8.3.1-Redshift-排序键
* 8.3.2-Redshift-分配方式(分配键)
* 8.3.3-1-Redshift最佳实践案例-步骤1-加载数据
* 8.3.3-2-Redshift最佳实践案例-步骤2-记录系统性能信息
* 8.3.3-3-Redshift最佳实践案例-步骤3-选择排序键
* 8.3.3-4-Redshift最佳实践案例-步骤4-选择分配方式
* 8.3.3-5-Redshift最佳实践案例-步骤5-审查压缩编码和重新创建表
* 8.3.3-6-Redshift最佳实践案例-步骤6和7-重新进行性能测试记录数据进行性能对比
* 8.5.1-1-Redshift-DML-使用copy命令加载数据
* 8.5.1-2-Redshift-DML-从远程SSH主机加载数据到Redshift表中
* 8.5.2-暂存表
* 8.5.3-事务回滚
* 8.5.4-VACUUM命令
* 8.5.5-UNLOAD命令
* 8.5.6-拓展-Amazon Redshift Spectrum服务介绍
* 第九章/
* 9.1-数仓理论回顾-数据仓库的发展
* 9.2-数仓理论回顾-名词解释和数仓维度设计模型
* 9.3-数仓理论回顾-数仓开发中的3个基本层级
* 第十章/
* 10.1-业务开发-案例架构介绍
* 10.2-业务开发-数据格式说明
* 10.3.1-1-业务开发-ODS层开发说明
* 10.3.1-2-业务开发-开发GlueETL任务并COPY数据到Redshift ODS层
* 10.3.2-业务开发-开发DW层-准备日期维度数据
* 10.3.3-1-业务开发-开发DW层-讲解DW层开发的需求
* 10.3.3-2-业务开发-开发DW层-DW层开发EMR代码快速讲解
* 10.3.3-3-业务开发-开发DW层-提交EMR任务
* 10.3.4-10-ADS指标开发-指标10
* 10.3.4-11-ADS指标开发-总结
* 10.3.4-1-ADS指标开发-指标1
* 10.3.4-2-ADS指标开发-指标2
* 10.3.4-3-ADS指标开发-指标3
* 10.3.4-4-ADS指标开发-指标4
* 10.3.4-5-ADS指标开发-指标5
* 10.3.4-6-ADS指标开发-指标6
* 10.3.4-7-ADS指标开发-指标7
* 10.3.4-8-ADS指标开发-指标8
* 10.3.4-9-ADS指标开发-指标9
* 10.4-ODS层开发-Glue代码单独讲解
* 10.5-DW层开发-EMR代码单独讲解
* 第十一章/
* 11.1-SuperSet-简介和安装
* 11.3-SuperSet-建立到Redshift的数据库链接
* 11.4.10-SuperSet-指标8和指标9和指标10的可视化
* 11.4.1-SuperSet-指标1可视化
* 11.4.3-SuperSet-指标2可视化
* 11.4.4-SuperSet-指标3可视化和lable设置
* 11.4.6-SuperSet-指标4和指标5的可视化
* 11.4.8-SuperSet-指标6和指标7的可视化
* 11.5.1-BI开发-指标8的重新分析
* 11.5.2-BI开发-基于BI完成3个数据探索需求和BI总结
* 第十二章/
* 12.1-12.2-QuickSight介绍和注册
* 12.3-1-QuickSight添加数据源
* 12.3-2-QuickSight-指标9可视化操作
* 12.3-3-QuickSight-数据探索的简单演示和总结
* 阶段四 数据湖/
* 第一章 数据湖/
* 数据湖概念/
* 00-课程目标
* 01-1-1-企业的数据困扰
* 01-1-2-补充-结构化-半结构化-非结构化数据
* 01-2-数据湖的概念
* 01-3-数据湖-数仓-数据集市的区别
* 数据湖理论/
* 02-1-写时模式和读时模式
* 02-2-3种常见的数据湖实现方案
* 02-3-数据湖对企业的价值
* 02-4-数据湖概念的总结
* 02-5-数据湖的4个设计原则
* 数据处理、数据应用的几种架构/
* 03-Lambda架构的简单介绍
* 数据湖基于Hadoop、Spark的实现/
* 04-数据湖的核心以及和普通大数据分析平台的不同
* Delta Lake - 数据湖核心的增强/
* 05-1-DeltaLake的简介和重点特性解读
* 05-2-DeltaLake的使用形式
* Delta Lake - Quickstart/
* 06-1-DeltaLake创建表-读取表-覆盖表操作
* 06-2-DeltaLake有条件更新和合并操作
* 06-3-DeltaLake的数据版本控制
* 06-4-DeltaLake的事务日志
* Delta Lake 操作/
* 07-1-DeltaLake表分区和追加
* 07-2-DeltaLake-Schema验证
* 07-3-DeltaLake-更新和删除对Parquet数据文件的影响
* 07-4-DeltaLake-vacuum方法
* 07-5-DeltaLake-表常用工具和阶段总结
* Delta Lake 理论/
* 08-1-DeltaLake-事务日志概念回顾
* 08-2-DeltaLake-Schema演化相关概念回顾
* 08-3-DeltaLake-最佳实践和总结
* 企业数据湖应用案例分析/
* 09-1-案例需求分析
* 09-2-1-基础数据(中间数据)的准备
* 09-2-2-基础数据增加新列
* 09-2-3-统计每小时TOP10热门查询关键词
* 09-2-4-统计全天热门TOP100查询关键词
* 09-2-5-导出数据为普通parquet文件
* 09-3-第九章总结
* 基于AWS的云上数据湖实现方案介绍/
* 10-1-1云平台的基础概念
* 10-1-2-两类云平台和主流公有云平台介绍
* 10-1-3-IaaS-PaaS-SaaS的概念
* 10-1-4-云平台对企业的意义
* 10-2-1-AWS-S3简介
* 10-2-2-AWS-Athena分析框架简介
* 10-2-3-AWS-EMR-集群模式介绍
* 10-2-4-AWS-EMR-步骤运行模式介绍
* 10-2-5-AWS-Glue-ETl-简单介绍
* 10-2-6-AWS-其它辅助工具介绍和课程总结
* 阶段五 大数据数据挖掘/
* 第一章 SparkMllib数据挖掘+SparkGraphX/
* 1-SparkMllib机器学习理论基础详解/
* 01-机器学习和大数据的区别(一)
* 02-机器学习和大数据的区别和联系(二)
* 03-机器学习和大数据的区别和联系(三)
* 04-人工智能和机器学习的区别
* 05-数据分析和数据挖掘联系
* 06-什么是机器学习问题
* 07-基于规则的学习和基于模型的学习方式
* 08-机器学习数据集概述1
* 09-机器学习数据集概述2
* 10-机器学习数据集概述3
* 11-机器学习问题分类
* 12-机器学习三要素强化
* 13-构建机器学习模型的流程
* 14-模型选择
* 15-交叉验证及经验和结构风险
* 2-SparkMllib库特征工程基础与实战(一)/
* 01-SparkMllib的功能
* 2-SparkMllib的版本
* 3-SparkMllib架构
* 4-环境搭建及RDD、DF、DS的转换实践
* 5-如何利用SparkMllib构建机器学习推荐架构
* 6.SparkMllib算法分类及应用场景
* 7-SparkMllib基础数据类型-localvector
* 8-SparkMllib基础数据类型-labelpoint
* 9.SparkMllib基础数据类型-libsvm数据读取
* 10.SparkMllib基础数据类型-localmatrix
* 11.SparkMllib基础数据类型-分布式行矩阵和行索引矩阵
* 12.SparkMllib基础数据类型-分块矩阵
* 13.SparkMllib均值和方差
* 14-SparkMllib相关系数
* 15-SparkMllib假设检验的卡方验证
* 16-SparkMllib假设检验和随机数的产生
* 17-特征提取tf-ifd
* 18-特征提取-word2vec实践
* 19-特征提取CountVector
* 3-SparkMllib库特征工程基础与实战(二)/
* 20-特征转化的二值化操作
* 21-特征转换-PCA操作
* 22-特征转换-类别型数据和数值型数据转换
* 23-特征转换-OneHot编码方式
* 24-特征转换-VectorIndexer转换操作
* 25-正则项
* 26-数值型数据处理的方法
* 27-Bucketizer分箱
* 28-ElementWise与SQLTransform实践
* 29-特征转换VectorAssemble
* 30-特征转换-QuantileDiscretizer
* 31-特征选择VectorSlicer
* 32-RFormula和卡方验证选择特征方法
* 33-卡方验证案例补充
* 36-案例实践2-Iris统计初步实践
* 37-案例实践2-Iris的rdd相关系数实践
* 38-案例实践2-iris的Dataframe数据统计
* 39-案例实践2-iris的SParkMllib特征工程实践
* 4-SparkMllib决策树算法基础与实战/
* 1-了解什么是决策树
* 2.基于规则建树
* 3-信息熵的理解
* 4-ID3算法步骤详解
* 5-ID3算法举例和C4.5算法改进
* 6-决策树的剪枝方式
* 7-电商购买数据集ID3算法对比实践
* 8-Cart树的回归树原理理解
* 9-Cart树算法案例讲解
* 10-Cart分类树原理及Gini系数
* 11-Cart分类树的案例
* 12-SparkMllib实战libsvm数据建模
* 13-SparkMl实战libsvm数据全流程讲解实战
* 14-SparkMllib相亲数据建模分析
* 15-SparkMllib实战iris鸢尾花实战
* 16-SparkMl实战Iris特征工程及建模实战1
* 5-SparkMllib高级模块与线性回归基础及实战/
* 1-SparkMllib的pipeline简介
* 2-Dataframe组件
* 3-Pipeline原理
* 4-通过set方法和ParamMap方法赋值超参数的选项
* 5-通过pipeline完成案例的代码编写
* 6-如何对模型选择与优化
* 7-超参数的网格搜索
* 8-简单交叉验证及模型选择
* 9-简单线性回归
* 10-最小二乘法解决简单线性回归原理
* 11-多元线性回归简介
* 12-最小二乘推导补充(补充)
* 13-线性回归的变体及各适用场景
* 14-SparkMl实战脂肪数据集的案例
* 15-SparkMl实战运输时间的预测分析
* 16-SparkMllib基于RDD结构实战线性回归实例
* 16-SparkMl实战libsvm数据的形式
* 17-Sparkml完成房价预测分析实战
* 6-SparkMllib聚类算法基础与实战/
* 1-什么是聚类
* 2-关于多种距离的度量简介
* 3-聚类算法核心思想
* 4-KMeans的举例
* 5-Kmens算法性能指标分析
* 6-KMeans特点及注意事项
* 7-SparkMLIB实战KMEans算法
* 8-SparkMLLIB实现药品数据得简单聚类
* 9-SparkMl实现基本数据的聚类分析实战
* 10-SparkMl和parkSql实现经纬度数据聚类分析实战
* 11-k-medoids了解
* 12-其他聚类思路-层次聚类方法
* 13-基于密度的聚类DBSCAN
* 14-GMM模型原理
* 15-聚类算法的总结:
* 16-SparkMllib实现对于层次聚类的分析
* 17-SparkMllib完成对于GMM高斯混合模型实践分析
* 18-SparkLDA实现了主题的提取实战
* 19-SparkML实现IRis鸢尾花的聚类算法实战
* 7-SparkGraphX理论基础与实战/
* 1-图基本概念以及图计算应用
* 2-SparkGraphX简介
* 3-SparkGraphX图算法
* 4-SparkGraphX抽象是RDPG---弹性分布式属性图
* 5-SparkGraphX架构层面及存储方式简介
* 6-SparkGraphX定义顶点操作
* 7-SparkGraphX构件图及查询的操作
* 8-图的基本数据结构
* 9-图的类型和图的存储方式简介
* 10-构建图的方法原理及源码了解创建过程
* 11-构建图的操作代码
* 12-社交网络数据的创建部分代码实战
* 13-图的基本信息--顶点、边、入度、出度
* 14-图的转换操作:mapVertices、mapEdges、mapTriplet
* 15-图的结构操作:reverse、subgraph、mask、groupGraph
* 16-图的关联操作
* 17-图的聚合以及图的操作API总结
* 8-SparkGraphX与SparkMllib综合实战/
* 1-PageRank算法的基本假设和理解
* 2-PageRank算法思想
* 3-PageRank算法深入
* 4-SparkGraphX通过社交网络数据完成重要节点的选择
* 5-通过wiki数据达到网页重要性的pagerank度量
* 6-通过PageRank算法得到网页排名的重要性
* 7-广度优先遍历
* 8-SparkGrphX实现最短路径
* 9-连通图和强联通图
* 10-SparkGraphx实战三角关系网络发现
* 11-SVD++原理
* 12-SVD++实战推荐算法预测
* 阶段六 大数据-今日指数项目/
* 第一章 大数据-今日指数/
* day01/
* 1.课程大纲
* 2.课程安排
* 3.证券业务知识介绍-1
* 4.证券业务知识介绍-2
* 5.业务模块和UI介绍
* 6.需求-数据源接口文档介绍
* 7.需求-接口文档(流处理和web)
* 8.业务功能-性能和存储规模介绍
* 9.架构设计-平台规划
* 10.总体架构介绍-1
* 11.总体架构介绍-2
* 12.总体架构介绍-预警
* 13.总体技术架构回顾
* 14.技术选型
* 15.数据流程介绍
* 16.项目实施介绍
* 17.数据源接口文档介绍
* 18.apache-avro介绍
* 19.定义avro约束文件
* 20.avro测试序列化
* 21.avro测试反序列化
* 22.深市数据采集-客户端代码开发-1
* 23.深市数据采集-客户端代码开发-2
* 24.深市数据采集-客户端代码开发-3
* 25.深市数据采集-客户端代码开发-4
* 26.深市数据采集-客户端代码开发-5
* 27.深市数据采集-kafka生产者对象
* 28.深市数据采集-自定义kafka序列化对象
* 29.数据生产测试
* 30.课程总结
* day02/
* 1.课程回顾
* 2.课程安排
* 3.沪市数据采集流程介绍
* 4.沪市数据采集接口文档介绍
* 5.数据采集流程介绍
* 6.沪市行情数据采集-初始化参数
* 7.沪市行情数据采集-ftp文件下载
* 8.沪市行情数据采集-数据序列化
* 9.flume自定source打包测试
* 10.数据业务开发-业务介绍
* 11.数据业务开发-模型设计介绍
* 12.数据业务开发-创建库表和加载ODS表数据
* 13.数据业务开发-沪市每日证券收盘明细表
* 14.数据业务开发-板块对应关系表和深市日收盘表
* 15.数据业务开发-沪深两市指数日收盘明细表
* 16.数据业务开发-个股K线表
* 17.数据业务开发-板块成分股
* 18.数据业务开发-指数K线
* 19.数据同步
* 20.定时任务调度
* 21.课程总结
* day03/
* 1.课程回顾
* 2.课程安排
* 3.业务流程介绍
* 4.环境搭建
* 5.配置类和特殊时间点工具类
* 6.HbaseUtil编写
* 7.HbaseUtil测试
* 8.RedisUtil开发和测试
* 9.个股主类开发-设置检查点机制
* 10.个股主类开发-kafka反序列化
* 11.个股主类开发-反序列化测试
* 12.个股主类开发-数据和时间过滤
* 13.个股主类开发-数据过滤
* 14.个股主类开发-数据转换
* 15.个股主类业务开发-设置水位线
* 16.Druid-应用场景
* 17.Druid-体系结构介绍
* 18.位图索引介绍
* 19.Druid启动
* 20.Druid测试-订单数据
* 22.索引文件解析
* 24.Druid-规范文件生成介绍
* 25.JDBC使用
* 26.Durid数据摄取-摄取HDFS和kafka数据
* 27.课程总结
* day04/
* 1.课程内容回顾
* 2.课程安排
* 3.个股业务开发介绍
* 4.个股秒级业务开发-窗口函数处理
* 5.个股秒级业务开发-封装list
* 6.个股秒级业务测试
* 7.个股秒级业务回顾
* 8.个股分时业务-开发步骤和注意事项
* 9.个股分时业务-获取最新分时行情数据
* 10.个分时业务-数据分流
* 11.个股分时业务-分时数据测试
* 12.个股分时数据备份-设置hdfs参数
* 13.个股分时数据备份-写入HDFS
* 14.上午课程回顾
* 15.个股涨跌幅业务开发
* 16.指数业务开发-新建job
* 17.指数业务开发-秒级行情
* 18.指数业务开发-获取分时行情数据
* 19.指数业务开发-分时行情数据写入
* 20.指数业务开发-分时备份至HDFS
* 21.指数业务开发-分时备份至HDFS测试
* 22.课程回顾
* day05/
* 1.课程回顾
* 2.课程安排
* 3.板块业务介绍
* 4.板块业务介绍2
* 5.板块秒级业务开发-初始化
* 6.板块秒级业务开发-计算累计流通市值
* 7.板块秒级业务-计算板块行情
* 8.板块秒级业务-数据测试
* 9.板块分时业务开发
* 10.板块分时备份至HDFS
* 11.K线业务介绍
* 12.个股K线-数据初始化
* 13.个股K线-数据转换
* 14.个股K线-数据写入mysql
* 15指数K线-数据初始化
* 16.指数K线-数据插入
* 17.板块K线-数据初始化
* 18.板块K线-数据插入
* 19.课程总结
* day06/
* 1.课程回顾
* 2.课程安排
* 3.预警业务介绍
* 4.预聚数据流程介绍
* 5.CEP介绍
* 6.铺垫正则表达式
* 7.量词得使用
* 8.过滤条件(简单和迭代)
* 9.过滤条件(or和util)
* 10.组合模式介绍
* 11.组合模式Demo开发(连续组合和允许组合)
* 12.案例-用户登陆失败
* 13.案例-监控市场价格(环境准备)
* 14.案例-监控市场价格-代码开发
* 15.测试邮件发送
* 16.实时预警-振幅业务开发(获取sql查询数据)
* 17.实时预警-振幅告警开发
* 18.实时预警-涨跌幅告警业务开发
* 19.课程总结
* day07/
* 1.课程回顾-1
* 2.课程回顾-2
* 3.课程回顾-3
* 4.课程安排
* 5.实时预警-换手率
* 6.CEP原理讲解
* 7.案例-超时订单数据处理
* 8.案例-机架温控预警-第一次模式匹配-1
* 9.案例-机架温控预警-获取第二次告警数据
* 10.Kylin入门
* 11.Kylin介绍和体系结构
* 12.启动Kylin
* 13.案例-根据日期对订单统计分析
* 14.案例-根据渠道统计订单数据
* 15.案例-根据日期-区域-产品统计订单数据
* 16.Kylin的工作原理(Cube和Cuboid)
* 17.离线预警-加载hive表中的个股数据
* 18.离线预警-分时成交top10
* 19.离线预警-振幅
* 20.课程总结
* day08/
* 1.课程回顾
* 2.课程安排
* 3.报表业务-多指标最值统计
* 4.JDBC操作Kylin
* 5.cube和segment的关系
* 6.增量构建和全量构建的区别
* 7.restApi触发增量构建
* 8.增量构建-手动合并segment
* 9.增量构建-删除segment
* 10.碎片管理
* 11.cuboid剪枝优化介绍
* 12.cube-剪枝优化衍生维度介绍
* 13.cube剪枝优化-聚合组介绍
* 14.膨胀率测试-创建model
* 15.膨胀率测试结果比较
* 16.web技术架构演变
* 17.web开发-查看接口文档
* 18.web-搭建工程
* 19.web-类介绍
* 20.web-AOP测试
* 21.整合mybatis
* day09/
* 1.课程回顾
* 2.实时大屏页面介绍
* 3.ReidsConfig配置文件开发
* 4.HbaseUtil区间查询
* 5.通用连接对象
* 6.国内指数查询
* 7.板块查询
* 8.涨幅数据查询
* 9.涨停跌停数查询
* 10.成交量对比
* 11.涨跌幅度查询
* 12.个股分时列表查询
* 13.股票搜索(模糊查询)
* 14.个股分时详情页面
* 15.日K线数据查询
* 16.日K线数据查询-2
* 17.个股分时详情
* 18.个股秒级行情
* 19.个股描述
* 20.定时任务-更细周K和月K
* 21.定时任务回顾.
* 22.课程回顾
* day10/
* 1.课程回顾和安排
* 2.部署介绍
* 3.深市数据采集部署
* 4.前后端本地联调
* 5.web项目部署
* 6.前端UI部署
* 7.实时流处理项目打包
* 8.环境准备
* 9.实时流处理项目部署
* 10.BI整合mysql-个股成交金额TOP10
* 11.BI整合druid-今日指数top4(成交量)
* 12.BI整合Kylin-还手率
* 13.开发模式介绍
* 14.课程总结-服务启动命令
* 15.课程总结-总体技术架构
* 16.课程总结-优化
* 17.课程总结-项目介绍
* 18.课程总结-自我介绍
* 19.课程总结-jvm介绍
* 20.课程总结-扩展
* 阶段七 工业大数据项目实战/
* 第一章 大数据一站制造项目/
* 第一章/
* 1.一站制造第一章总体内容概述+学习目标
* 2.工业互联网和制造业概述
* 3.加油站和相关实施名词说明
* 4.大数据在加油站领域的应用
* 5.一站制造项目核心业务流程图
* 6.一站制造项目架构和技术架构流程
* 7.docker容器服务安装
* 8.dcoker的linux命名空间
* 9.关于虚拟网桥与虚拟网卡详细讲解
* 10.docker网络的四种模式与bridge模式
* 11.oracle安装与使用客户端访问
* 12.docker安装hadoop+hive+sqoop+spark thrift server说明
* 13.一站制造项目第一章总结
* 第二章/
* 1.第二章数仓建模与数据采集课程目标
* 2.维度建模方法论
* 3.一站制造数仓分层详细说明
* 4.一站制造数仓简单回顾+业务系统和查看业务系统表
* 5.全量数据和增量数据详细情况分析
* 6.yarn的容量调度中设置appmaster可申请最大内存容量说明
* 7.mapreduce运行时以uber模式运行+uber相关参数说明
* 8.实现sqoop从oracle中导入单表数据到hdfs上
* 9.sqoop导入数据解决数据导入增加问题+两种解决方案
* 10.shell实现sqoop增量导入数据需求与分析
* 11.全量和增量导入数据的脚本
* 第三章/
* 1.第二章数据采集重要内容回顾
* 2.ODS&DWD层建设课程目标与项目规范
* 3.ODS层分别使用sparksql&hive引擎创建hvie表
* 4.ODS层自动创建表实现思路分析
* 5.实现ODS层自动创建表功能的准备工作
* 6.实现ODS层创建表工具类分析
* 7实现ODS层创建表读取全量和增量表工具类实现
* 8.实现ODS层得到oracle和hive连接工具类mp4
* 9.查询出oracle中表对应的元数据信息和创建列对象
* 10.编写表对象和表对象中三个特殊方法(给列对象集合添加列对象、根据列名获得列对象、得到所有列名集合)
* 11.编写从oracle中查询出表的元数据信息(包含列的元数据信息)工具类
* 12.oracle获得元数据信息工具类测试
* 13.使用动态拼接sql的方式创建表
* 14.ods层自动创建表过程详细分析
* 15.性能监控工具jprofile
* 16.简历编写方法与复习思路
* 第四章/
* 1.数仓ODS层&DWD层建设总结回顾
* 2.数仓维度层建设课程目标与维度建模理论回顾
* 3.实现地理区域查询省和市和区和乡镇数据建模+mr执行查询的流程分析
* 4.mapreduce执行过程和spark逻辑和物理执行计划
* 5.地理区域维度建模实现
* 6.日期维度建模
* 7.传入年份参数得到当年的所有的日期的id集合
* 8.日期维度生成
* 9.组织机构维度+服务网点维度+仓库维度
* 10油站维度建模
* 11.扩展维度
* 第五章/
* 1.解决笛卡尔积中存在两表关联无条件
* 2.第四章维度层建设重点内容回顾
* 3.DWB事实指标层建设简介
* 4.呼叫中心事实表建模(上)
* 5.呼叫中心事实表建模(下)
* 6.呼叫中心事实表建表和加载数据
* 7.油站事实表建模与新增油站计算方式
* 8.工单事实表建模
* 9.安装事实表建模
* 10.维修事实表建模
* 11.扩展指标事实表
* 12.客户回访指标分析
* 13.任务调度编排
* 第六章/
* 1.数仓DWB事实指标层重点内容回顾
* 2.服务类型中工单主题建模
* 3.服务类型中维修主题建模
* 4.服务类型中回访主题建模
* 5.服务类型中派单主题建模
* 6.服务类型中费用主题建模
* 7.客户分类中客户主题建模
* 8.保内良品和保内不良品核销建模
* 9.第三方服务商数据说明
* 10.运营部存储的部门或新业务需求数据+hbase的rowkey设计扩展
* 11.运营部主题简介+数仓分层对比阿里数仓分层
* 12一站制造项目总结(上)
* 13.一站制造项目总结(下)
* 阶段八 大数据-星途车联网/
* 第一章 大数据-星途车联网/
* day01/
* 01.【星途车联网】day01-项目的内容介绍及章节规划
* 02.【星途车联网】day01-车联网行业介绍
* 03.【星途车联网】day01-车联网项目探索和发现
* 04.【星途车联网】day01-项目整体架构
* 05.【星途车联网】day01-项目技术架构及逻辑架构图
* 06.【星途车联网】day01-数据流转过程分析
* 07.【星途车联网】day01-服务器及数据量的计算和数据格式分析
* 08.【星途车联网】day01-项目环境的搭建
* 09.【星途车联网】day01-解析简单的json字符串
* 10.【星途车联网】day01-解析复杂的json字符串
* 11.【星途车联网】day01-解析复杂的json字符串优化后的写法
* 12.【星途车联网】day01-知识点总结
* day02/
* 01.【星途车联网】day02-知识点回顾
* 02.【星途车联网】day02-分析数据采集上报过程以及编写kafka的生产者和消费者代码
* 03.【星途车联网】day02-流式处理模块的初始化
* 04.【星途车联网】day02-梳理实时ETL开发的流程步骤
* 05.【星途车联网】day02-编写时间处理的工具类
* 06.【星途车联网】day02-工具类的编写
* 07.【星途车联网】day02-json解析工具类的编写
* 08.【星途车联网】day02-flink流式处理程序消费kafka数据测试
* 09.【星途车联网】day02-对流式计算程序的任务进行封装公共类
* 10.【星途车联网】day02-etl任务的设计及反压的原理介绍
* 11.【星途车联网】day02-知识点总结
* day03/
* 01.【星途车联网】day03-知识点回顾
* 02.【星途车联网】day03-消费kafka数据过滤出来正常数据和异常数据
* 03.【星途车联网】day03-StreamingFileSink的介绍
* 04.【星途车联网】day03-StreamingFileSink的使用案例
* 05.【星途车联网】day03-使用StreamingFileSink的将正常和异常数据分别写入到hdfs中
* 06.【星途车联网】day03-hive创建分区映射hdfs数据所在目录加载到hive表中
* 07.【星途车联网】day03-回顾rowkey的设计原则和设计方法
* 08.【星途车联网】day03-将数据写入到hbase的流程分析
* 09.【星途车联网】day03-将数据实时的写入到hbase中
* 10.【星途车联网】day03-buffredmuator写入优化
* 11.【星途车联网】day03-使用优化后的buffredmuator方案将数据实时写入到hbase表中
* 12.【星途车联网】day03-buffredmuator源码分析
* 13.【星途车联网】day03-知识点总结
* day04/
* 01.【星途车联网】day04-知识点回顾
* 02.【星途车联网】day04-回顾hbase的预写日志
* 03.【星途车联网】day04-回顾hbase的编码和压缩
* 04.【星途车联网】day04-Phoenix的介绍
* 05.【星途车联网】day04-Phoenix的常用操作
* 06.【星途车联网】day04-hbase的二级索引介绍
* 07.【星途车联网】day04-车辆明细表数据的实时写入
* 08.【星途车联网】day04-基于车辆明细表数据进行数据统计
* 09.【星途车联网】day04-zepplin介绍和使用场景
* 10.【星途车联网】day04-zepplinUI介绍
* 11.【星途车联网】day04-zepplin与mysql和hive的整合案例
* 12.【星途车联网】day04-zepplin集成Phoenix进行即席查询
* 13.【星途车联网】day04-知识点总结
* day05/
* 01.【星途车联网】day05-知识点回顾
* 02.【星途车联网】day05-驾驶行程存储分层设计
* 03.【星途车联网】day05-驾驶行程业务实现逻辑分析
* 04.【星途车联网】day05-驾驶行程业务添加水印处理
* 05.【星途车联网】day05-驾驶行程采样数据自定义窗口开发
* 06.【星途车联网】day05-驾驶行程采样数据实时写入到hbase中
* 07.【星途车联网】day05-驾驶行程数据处理分析
* 08.【星途车联网】day05-驾驶行程数据自定义窗口开发
* 09.【星途车联网】day05-驾驶行程数据实时写入到hbase
* 10.【星途车联网】day05-驾驶行程数据离线同步到mysql数据库
* 11.【星途车联网】day05-知识点总结
* day06/
* 01.【星途车联网】day06-知识点回顾
* 02.【星途车联网】day06-电子围栏的介绍和应用场景
* 03.【星途车联网】day06-电子围栏的数据结构介绍
* 04.【星途车联网】day06-电子围栏业务开发流程梳理
* 05.【星途车联网】day06-电子围栏业务开发步骤编写
* 06.【星途车联网】day06-将电子围栏规则应用到原始数据流
* 07.【星途车联网】day07-测试两点之间距离的工具类
* 08.【星途车联网】day07-将电子围栏规则与原始数据进行拉宽操作并测试
* 09.【星途车联网】day07-分析电子围栏状态的切换逻辑
* 10.【星途车联网】day07-实现电子围栏状态的切换逻辑并测试
* 11.【星途车联网】day07-实现电子围栏分析结果写入到mysql并进行测试
* 12.【星途车联网】day07-知识点总结
* day07/
* 01.【星途车联网】day07-知识点回顾
* 02.【星途车联网】day07-在线实时故障分析业务介绍
* 03.【星途车联网】day07-表结构介绍及高德地图解决逆地理坐标问题
* 04.【星途车联网】day07-在线实时异常告警分析流程
* 05.【星途车联网】day07-异步io实现高德逆地理位置查询的逻辑梳理
* 06.【星途车联网】day07-异步io实现高德逆地理位置查询并测试
* 07.【星途车联网】day07-实现自定义窗口函数区分出来异常字段和正常指标字段
* 08.【星途车联网】day07-将车辆基础信息数据应用到原始数据流流
* 09.【星途车联网】day07-在线实时故障分析结果实时写入到数据库中
* 10.【星途车联网】day07-知识点总结
* day08/
* 01.【星途车联网】day08-知识点回顾
* 02.【星途车联网】day08-自定义告警规则业务分析和数据存储
* 03.【星途车联网】day08-存储介质mongodb的介绍
* 04.【星途车联网】day08-mongodb服务的部署
* 05.【星途车联网】day08-mongodb数据库及集合的常用操作
* 06.【星途车联网】day08-mongodb高阶操作
* 07.【星途车联网】day08-mongodb的索引介绍
* 08.【星途车联网】day08-mongodb的高阶操作
* 09.【星途车联网】day08-js实现mongodb的id自增操作
* 10.【星途车联网】day08-基于地理位置的查询
* 11.【星途车联网】day08-mongodb的客户端操作
* 12.【星途车联网】day08-知识点总结
* day09/
* 01.【星途车联网】day09-知识点回顾
* 02.【星途车联网】day09-使用jdbc对mongodb的数据进行添加或更新
* 03.【星途车联网】day09-使用jdbc对mongodb的数据进行删除及高级查询
* 04.【星途车联网】day09-mongodb的副本集原理及演示
* 05.【星途车联网】day09-自定义告警规则业务分析及相关表结构介绍
* 06.【星途车联网】day09-自定义告警规则业务代码实现步骤分析
* 07.【星途车联网】day09-自定义告警规则业务代码实现水印及自定义窗口操作
* 08.【星途车联网】day09-加载自定义告警规则数据并进行广播
* 09.【星途车联网】day09-梳理自定义告警规则应用到原始拉宽数据流的逻辑
* 10.【星途车联网】day09-自定义规则计算表达式工具类
* 11.【星途车联网】day09-知识点总结
* day10/
* 01.【星途车联网】day10-知识点回顾
* 02.【星途车联网】day10-将自定义告警规则应用到数据流拉宽分析结果模型数据
* 03.【星途车联网】day10-分析数据写入到mongodb的逻辑
* 04.【星途车联网】day10-分析数据写入到mongodb的实现
* 05.【星途车联网】day10-分析数据写入到mongodb的测试
* 06.【星途车联网】day10-离线指标分析业务介绍及课程目标
* 07.【星途车联网】day10-jdbc六大对象介绍以及各自使用场景
* 08.【星途车联网】day10-使用jdbcinputformat和jdbcoutformat案例演示
* 09.【星途车联网】day10-知识点总结
* day11/
* 01.【星途车联网】day11-知识点回顾
* 02.【星途车联网】day11-编写数据汇总计算准备率实现逻辑
* 03.【星途车联网】day11-编写数据汇总计算准备率写入到mysql表中
* 04.【星途车联网】day11-多维度分析数据准备率写入到mysql表中
* 05.【星途车联网】day11-自定义告警类型和告警状态统计分析
* 06.【星途车联网】day11-车联网项目数仓分层
* 07.【星途车联网】day11-车辆动态监测分析
* 08.【星途车联网】day11-BI分析及介绍
* 09.【星途车联网】day11-superset入门案例
* 10.【星途车联网】day11-前端页面介绍
* 11.【星途车联网】day11-知识点总结
* day12/
* 01.【星途车联网】day12-知识点回顾
* 02.【星途车联网】day12-回顾flink应用程序的部署方式以及flinkonyarn部署
* 03.【星途车联网】day12-车联网任务分类的总结
* 04.【星途车联网】day12-ds介绍及安装部署
* 05.【星途车联网】day12-ds定义并调度任务
* 06.【星途车联网】day12-ds基本使用和项目管理界面操作
* 07.【星途车联网】day12-扩展了解充电桩业务
* 08.【星途车联网】day12-项目总结1
* 09.【星途车联网】day12-项目总结2
* 阶段九 BAT直通车/
* 第一章 大数据-大厂面试题/
* 阿里巴巴面试题/
* 0.阿里巴巴大数据面试题学习目标
* 1. 大表join小表报错怎么解决
* 2. 自定义函数udf、udaf、udtf的区别
* 3. hive的元数据保存方式有哪些,有什么特点
* 4. 内部表与外部表的区别
* 5. 为什么建议使用外部表
* 6. insert into 与insert overwrite 的区别
* 7. Hive的条件判断函数有哪些
* 8. Hive表的特点
* 9. spark提交job流程
* 10. spark提交任务的时候--jars是什么意思
* 11. Hadoop的Wordcount详解
* 12. spark做过什么优化,原理是什么
* 13. 反转链表
* 14.实现堆 push pop min复杂度为O(1)
* 15. 10G文件只有32M内存怎么判断相似数据
* 16. Redis的数据结构
* 17. 什么是分布式系统
* 18. NOSQL为啥比SQL快
* 19. B+ 树与B树的区别
* 20. 输入ping ip后发生了什么
* 21. 很多观测站的数据怎么用Hive读取并写入
* 22. 元数据的理解、作用和影响
* 23. 对MaxCompute的了解并与常见的大数据系统做对比
* 24. Hadoop2.x做了哪些改动
* 25. spark的shuffle过程
* 26. JVM垃圾收集器
* 27. shuffle过程中数据写入到哪个buffer
* 28. Executor、core、task之间的关系
* 29. hiveSQL累计求和
* 30.说说arraylist、vector、linkedlist存储性能和特性
* 31.treeset的特性
* 32.给出二叉树列出先序、中序、后序遍历
* 33.第二高的薪水
* 百度面试题/
* 1. spark缓存数据缓存到了哪里
* 2. Linux常用命令
* 3. 除了这些还有其他的哪些技术
* 4. 自定义UDF、UDTF函数
* 5. zookeeper选举过程
* 6. 什么是脑裂
* 7. hdfs数据写入报错,从三个方向解答
* 8. hdfs的三副本怎么保持一致性
* 9. mapper与reducer个数的指定
* 11. hbase行键的设计原则
* 12. HBASE的日志合并树是什么
* 13. spark的WordCount
* 14. kafka与传统消息队列的区别
* 15. 简述平衡二叉树的插入删除操作
* 16. JDK8的新特性
* 17. 说说spark的RDD
* 18. Combiner函数的使用发生在哪个阶段,怎么使用
* 19. HBASE删除一条数据的过程
* 20. hive数据倾斜的原因以及解决方法
* 21. paxos的协议主要目的是什么
* 22. Hadoop、spark、MPI的特点以及使用场景
* 23. 解释TCP建立过程,并用函数解释交互过程
* 24. 说一下异常
* 25. kafka的message包含哪些信息
* 26. kafka的数据存储在哪
* 27. java的NIO介绍一下
* 28.flume丢包问题
* 29.不采用flume采集日志,用logger4j采集日志的优缺点
* 30.hive笔试题
* 滴滴面试题/
* 今日目标
* 1. 怎么保证多请求的顺序性
* 2. 僵尸进程和孤儿进程
* 3. fork函数的底层实现过程
* 4. jvm内存布局
* 5. 什么情况发生栈溢出
* 6. 什么是双亲委派模型,以及优点
* 7. 堆排序求TOPN
* 8. 怎么解决过拟合问题
* 9. L1和L2的正则区别
* 10. yarn中的APPmaster挂掉了怎么办
* 11. MapReduce慢的原因
* 12. hdfs小文件优化方法
* 13. hdfs的压缩算法和使用场景
* 14.hive里面的几种排序特点
* 15. hive底层与数据库交互原理
* 16. hive如何进行权限控制
* 17. hivesql笔试题
* 18. application的并行度设置
* 19.spark提交任务的参数
* 20.spark中的数据倾斜有什么好的解决方案
* 21. flink的组件有哪些
* 22. 你们的flink集群规模有多大
* 23.flink的基础编程模型是什么
* 24. flink集群的角色有哪些,以及作用是什么
* 25. 设计一个大型网站架构
* 26. hbase的compaction用户和在什么时候触发
* 27. 给定a、b2个大文件,匹配里面的URL
* 28.每天百亿数据写入hbase,怎么保证写入
* 29. 列举hbase的优化方法
* 30.kafka怎么保证数据不丢失
* 京东面试题/
* 1. 二叉树的逐层打印
* 2. 归并排序之java实现
* 3. 一根绳子要少一个小时,怎么计算半个小时
* 4. 快速排序java实现
* 5. 1亿个数据找前1000条最大的数据
* 6. 谈谈用MapReduce求topk
* 7. mr和spark的shuffle区别
* 8. hiveSQL的执行顺序
* 9. 统计所有用户和活跃用户的个数以及年龄
* 10. 统计10月用户第一次购买的商品信息
* 11. rdd与dataset的区别
* 12. Spark为什么分为transformation和action
* 13. 将将scala的伴生对象
* 14. 谈谈scala的隐式转换
* 15. jobmanager在集群中扮演了什么角色
* 16. flink里面slot和parallelism的区别
* 17. flink分布式快照的原理是什么
* 18.说说flink的序列化
* 19. 用Linux命令查找指定内容的文件
* 20. 说出几个git的常用命令
* 21. kafka快的原因,零拷贝的原理
* 22. 简单讲讲direct的设计思路
* 23. 介绍一下flume的架构
* 24. 用Linux命令对一个文件进行处理
* 25. TCP的三次握手和四次挥手过程
* 26. 怎么保证在kill-9的情况下数据不丢失
* 27. 数据看看的锁有哪些
* 28. URL和uri的区别
* 29.sleep和yield的区别
* 30.snn的工作机制
* 31.运行异常和受检异常有什么不同
* 32.flink和storm反压有什么不同
* 美团面试题/
* 0.美团大数据面试题学习目标
* 1. 数仓命令规范
* 2.拉链表的使用场景
* 3. 数据库和数据仓库的区别
* 4. 有什么维表
* 5. 数据源有哪些
* 6. 最大的表和数据量是多少
* 7. 用什么调度工具
* 8. 数仓数据抽取方法
* 9. datax比sqoop快
* 10. CDH集群搭建
* 11. Redis和zookeeper的分布式锁
* 12. zookeeper如何保持数据一致性
* 13. 项目的解决方案及问题
* 14. 流式计算和离线计算的选取
* 15. OLAP引擎有哪些
* 16. 谈谈对MPP数据库的了解
* 17. 谈谈对Clickhouse的了解
* 18. kylin数据库原理
* 19. APP怎么对外提供服务的
* 20. 缓慢变化维的处理方式有哪些
* 21. datax存储数据遇到emoji表情报错该怎么解决
* 22. 为什么要用到大数据平台
* 23. 维度建模和范式建模的区别
* 24. 从0-1构建数仓
* 25. 数据模型如何构建
* 26. 如何保证数据质量
* 27. datax与sqoop的优缺点
* 28. 集市层和公共层
* 29. on 和 where的区别
* 30. flink为什么要checkpoint机制
* 31. flink如何保证Exactly_once的原理
* 32. flink的背压机制
* 33. spark和flink对比
* 34. flink的join操作
* 腾讯面试题/
* 1.学习目标和分哪几个模块
* 2.数组的子数组最大值代码实现
* 3.递归算法反转字符串
* 4. 冒泡排序代码实现
* 5. 二叉树的java代码实现
* 6. hdfs的操作命令
* 7. 集群节点的上线和下线
* 8.Hadoop的namenode宕机怎么办
* 9.联邦的实现
* 10.Hadoop的序列化和反序列化以及定义bean对象的步骤
* 11.MapReduce的几种排序以及发生的阶段
* 12.你们的数据量大概是多少
* 13.讲讲你的优化方法
* 14.hiveSQL怎么计算map个数
* 15. 怎么查看hive的自带函数,以及使用命令
* 16.hive命令操作
* 17.hive支持哪些数据类型
* 18.分区表解决需求
* 19.hive自带函数split用法
* 20.dataframe和rdd的区别
* 21.spark的数据倾斜问题怎么解决
* 22.spark的2种shuffle工作流程
* 23.checkpoint的操作
* 24.rdd的弹性表现在哪几点
* 25.flink什么情况才会生成operator chain
* 26.flink 的三层图指的是什么
* 27.flink计算资源是如何调度的
* 28.简述flink的数据抽象和交换过程
* 29.简述flinkSQL是如何实现的
* 30.kafka为什么这么快
* 31.hbase和hive的区别
* 网易面试题/
* 1.本章面试题介绍
* 2.N级台阶的递归算法实现
* 3.大型网站在架构上应当考虑哪些问题
* 4.你用过的前端优化技术有哪些
* 5.领域模型、失血模型、贫血模型、充血模型
* 6.海量数据统计前10个词
* 7.二分查找法思想和实现
* 8.判断一个单词里面的字母是否全都不同
* 9.找回文素数代码实现
* 10.如何配置安装一个Apache Hadoop
* 11.Hadoop集群中有哪些进程
* 12.描述MapReduce中shuffle阶段的工作流程
* 13.hdfs的读和写流程
* 14.Hadoop的几个默认端口号及其含义
* 15.源码解析Hadoop中的recordreader和split以及block之间的关系
* 16.举例2种hive的优化措施
* 17.根据需求统计结果
* 18.聊聊hive的索引
* 19.spark提交作业流程
* 20.stage,task和宽窄依赖
* 21.spark的内存模型
* 22.spark何时缓存数据
* 23.sparkstreaming处理偏移量的管理方法
* 24.spark中ML和MLLib的区别和联系
* 25.spark如何自定义partitioner分区器
* 26.flink相比传统sparkstreaming的区别
* 27.说说flink中的窗口
* 28.说说flink的内存管理是如何做的
* 29.flink的延迟高,怎么解决这个问题
* 30.hbase中的scan对象的setcache和setbatch方法的使用
* 31.hbase的内部机制是什么
* 32.如何提高hbase客户端的读写性能
* 33.kafka生产数据后消息会发生偏移吗
* 小米面试题/
* 1.小米大数据面试题介绍
* 2.针对排好序的数组进行去重操作代码实现
* 3.有一个元素超过数组的半数以上,找到这个元素
* 4.什么是XSS、什么是SQL注入、什么是CSRF攻击
* 5.谈谈TDD的好处
* 6.归并排序之Java实现
* 7.给出5个数字12345的全排列
* 8.怎么在海量数据中找出重复次数最多的一个
* 9.根据日起计算多少天
* 10.约瑟夫环
* 11.Hadoop中有哪些重要的配置文件,作用是什么
* 12.Hadoop实现join的几种方法
* 13.MapReduce推测执行算法以及原理
* 14.fileinputformat切片机制
* 15.maptask的工作机制
* 16.hive笔试题
* 17.分组求前10名
* 18.讲讲hive里面的jvm重用
* 19.如何理解spark的RDD数据结构分区
* 20.广播变量使用需要注意什么
* 21.sparkstreaming的反压怎么处理
* 22.spark On mesos中什么是粗粒度什么是细粒度以及优缺点
* 23.spark中版本的意思,以及spark1.6.0数字代表什么意思
* 24.spark技术有哪些组件,每个功能是什么
* 25.介绍一下对unfied memory manager内存管理的理解
* 26.jobmanager在集群启动中起到什么作用
* 27.flink中的分布式快照机制如何实现
* 28.hbase中rowfilter和bloomfilter的原理
* 29.请说明kafka的消息投递保证机制
* 30.协同过滤算法的底层实现原理
* 阶段十 大数据常见架构与设计-大厂架构/
* 第一章 大数据-大厂架构/
* 小米架构/
* 00_目录和学习目标
* 01_离线数据仓库架构
* 02_维度数据建模
* 03_联机分析处理
* 04_OLAP分类和逻辑概念
* 05_联机分析处理性能
* 06_实时数仓与离线数仓的对比
* 07_kappa流批一体架构介绍
* 08_kappa流批一体架构流程的2个阶段
* 09_离线架构v1.0
* 10_混合流批一体架构v2.0
* 11_实时kappa架构v3.0
* 12_环境准备
* 13_环境演示
* 14_数仓案例架构
* 15_案例维度同步和事实表拉宽处理
* 16_案例明细数据进行汇总处理
* 17_总结
* 美团架构/
* 00_目标和目录
* 01_美团点评的挑战和解决方案
* 02_离线数据仓库
* 03_系统架构之迁移、层层转换、数据的冷热温
* 04_划分维度表、事实表和调度系统
* 05_系统监控
* 06_准实时数仓
* 07_实时数仓和离线数仓、准实时数仓的方案对比
* 08_基于flink体系的实时数仓方案
* 09_基于Mysql+Canal+kafka的CDC方案
* 10_基于MySQL+FlinkCDC+FlinkTable
* 11_分层体系
* 12_环境的安装部署
* 13_数据类型和连接器
* 14_FileSystem连接器
* 15_Kafka连接器
* 16_FlinkStreaming SQL入门案例
* 17_介绍综合案例的表结构和数据生成器
* 18_执行代码生成表结构和数据
* 19_创建ODS层数据库
* 20_创建DWD层和DWS层数据表
* 21_总结
* 平安架构/
* 00_学习目标
* 01_离线数据仓库架构
* 02_维度数据建模
* 03_联机分析处理
* 04_OLAP分类和逻辑概念
* 05_联机分析处理性能
* 06_实时数仓与离线数仓的对比
* 07_Lambda流批混合架构
* 08_Lambda架构概览
* 09_Lambda三层架构
* 10_Lambda架构常用技术选型
* 11_平安整体架构模型
* 12_平安大数据lambda架构的落地
* 13_Lambda架构的案例需求和模块创建
* 13_环境准备
* 14_环境演示
* 14_离线处理的公共模块导入
* 15_离线批处理案例实现
* 16_实时流处理案例实现
* 17_总结





![[衡天云]爆款云服务器 低至12元/月](/hty.png)