2020年最新 大数据自学教程Spark从零到精通完整版
【课程介绍】
1,课程由浅到深,由原理到实践,既适合零基础也适合深入学习。
2,涵盖了Spark一站式解决方案,包括:SparkCore、SparkSQL、SparkStreaming、StructuredStreaming等技术。
3,结合实际案例,培养解决实际问题的能力。
适用人群:
1、对大数据感兴趣的在校生及应届毕业生。
2、对目前职业有进一步提升要求,希望从事大数据行业高薪工作的在职人员。
3、对大数据行业感兴趣的相关人员。
【课程目录】
第一章 Spark概述和入门
01_Spark概述_目标
02_Spark概述_Spark是什么
03_Spark概述_Spark的特点
04_Spark概述_Spark的组成
05_Spark集群搭建_Spark集群结构
06_Spark集群搭建_Spark集群结构_扩展
07_Spark环境搭建_下载和解压Spark安装包
08_Spark环境搭建_配置HistoryServer
09_Spark集群搭建_分发和启动
10_Spark集群搭建_高可用配置
11_Spark集群搭建_第一个案例
12_Spark入门_代码编写方式
13_Spark入门_SparkShell本地文件读取
14_Spark入门_执行过程
15_Spark入门_读取HDFS上的文件
16_Spark入门_独立应用编写
17_Spark入门_独立应用的运行方式
18_RDD入门_RDD是什么
19_RDD入门_SparkContext
20_RDD入门_创建RDD的三种方式
21_RDD入门_Map算子
22_RDD入门_FlatMap算子
23_RDD入门_ReduceByKey算子
第二章 SparkCore-1
01_深入RDD_课程结构
02_深入RDD_初始案例_步骤
03_深入RDD_初始案例_代码编写
04_深入RDD_问题_如何运行在集群中
05_深入RDD_问题_分解和容错
06_深入RDD_定义_出现的背景
07_深入RDD_定义_RDD的特点
08_深入RDD_定义_什么叫做弹性分布式数据集
09_深入RDD_定义_五大属性
10_RDD算子_分类
11_RDD算子_转换_回顾
12_RDD算子_转换_mapPartitions
13_RDD算子_转换_Filter
14_RDD算子_转换_Sample
15_RDD算子_转换_mapValues
16_RDD算子_转换_集合操作
17_RDD算子_转换_groupByKey
18_RDD算子_转换_combineByKey
19_RDD算子_转换_foldByKey
20_RDD算子_转换_aggregateByKey
21_RDD算子_转换_join
22_RDD算子_转换_排序
23_RDD算子_转换_重分区
24_RDD算子_转换_总结
第三章 SparkCore-2
01_RDD算子_Action_reduce
02_RDD算子_Action_foreach
03_RDD算子_Action_countByKey
04_RDD算子_Action_take
05_RDD算子_Action_总结
06_RDD算子_KV类型的支持
07_RDD算子_数字型的支持
08_阶段练习_需求介绍和明确步骤
09_阶段练习_代码编写
10_阶段练习_总结
11_RDD的分区和Shuffle_介绍
12_RDD的分区和Shuffle_查看分区
13_RDD的分区和Shuffle_创建RDD时指定分区数
14_RDD的分区和Shuffle_通过算子重分区
15_RDD的分区和Shuffle_通过其他算子指定分区数
16_RDD的分区和Shuffle_Shuffle过程扫盲
17_RDD的缓存_缓存的意义_案例介绍
18_RDD的缓存_缓存的意义_过程代码
19_RDD的缓存_缓存的意义_结论
20_RDD的缓存_缓存的API
21_RDD的缓存_缓存级别
22_Checkpoint_意义
23_Checkpoint_使用
第四章 SparkCore-原理
01_Spark原理_概述和思路
02_Spark原理_总体介绍_概要
03_Spark原理_总结介绍_案例编写
04_Spark原理_总体介绍_集群环境
05_Spark原理_总体介绍_逻辑执行图
06_Spark原理_总体介绍_物理执行图
07_Spark原理_逻辑图_HadoopRDD的生成
08_Spark原理_逻辑图_MapPartitionsRDD
09_Spark原理_逻辑图_小结
10_Spark原理_逻辑图_RDD之间的关系_一对一
11_Spark原理_逻辑图_RDD之间的关系_多对一
12_Spark原理_逻辑图_窄依赖_案例
13_Spark原理_逻辑图_窄依赖_分析
14_Spark原理_逻辑图_宽依赖_分析
15_Spark原理_逻辑图_宽窄依赖判断
16_Spark原理_逻辑图_窄依赖的分类_看源码
17_Spark原理_逻辑图_窄依赖的分类_分析
18_Spark原理_逻辑图_总结
19_Spark原理_物理图_介绍
20_Spark原理_物理图_Task设计
21_Spark原理_物理图_Stage划分
22_Spark原理_物理图_案例总结
23_Spark原理_运行过程_概念介绍
24_Spark原理_运行过程_Job和Stage的关系
25_Spark原理_运行过程_Stage和Task的关系
26_Spark原理_运行过程_总结和流程
27_高级特性_闭包_概念
28_高级特性_闭包_Spark闭包分发
29_高级特性_累加器
30_高级特性_广播
第五章 SparkSQL-基础
01_SparkSQL是什么_命令式和声明式的区别
02_SparkSQL是什么_历史和重要性
03_SparkSQL是什么_适用场景
04_SparkSQL初体验_命令式案例
05_SparkSQL初体验_Dataset和DataFrame
06_SparkSQL初体验_SQL案例
07_扩展_Catalyst优化器_SparkSQL和RDD的区别
08_扩展_Catalyst优化器_优化过程
09_扩展_Catalyst优化器_查看计划
10_Dataset介绍_Dataset是什么
11_Dataset介绍_Dataset底层类型
12_Dataset介绍_将Dataset转为同泛型的RDD
13_DataFrame介绍_DataFrame是什么
14_DataFrame介绍_创建_toDF
15_DataFrame介绍_创建_read
16_DataFrame介绍_操作
17_Dataset和DataFrame的区别_区别
18_Dataset和DataFrame的区别_Row对象
第六章 SparkSQL-读写
01_SparkSQL读写_介绍
02_SparkSQL读写_Reader
03_SparkSQL读写_Writer
04_SparkSQL读写_Parquet
05_SparkSQL读写_分区
06_SparkSQL读写_JSON
07_SparkSQL读写_JSON小技巧
08_SparkSQL读写_Hive_整合
09_SparkSQL读写_Hive_创建Hive表
10_SparkSQL读写_Hive_读取Hive表
11_SparkSQL读写_Hive_SparkSQL创建Hive表
12_SparkSQL读写_Hive_写入数据_配置
13_SparkSQL读写_Hive_写入数据_编码和运行
14_SparkSQL读写_JDBC_MySQL环境准备
15_SparkSQL读写_JDBC_写入数据
第七章 SparkSQL-转换
01_有类型转换_map
02_有类型转换_transform_
03_有类型转换_as
04_有类型转换_filter
05_有类型转换_groupByKey
06_有类型转换_split_
07_有类型转换_orderBy
08_有类型转换_去重
09_有类型转换_集合操作
10_无类型转换_选择
11_无类型转换_列操作
12_无类型转换_groupBy
13_Column对象_创建1
14_Column对象_创建_有绑定
15_Column对象_操作_别名和类型
16_Column对象_操作_API
17_缺失值处理_什么是缺失值
18_缺失值处理_null&NaN_读取文件
19_缺失值处理_null&NaN_处理
20_缺失值处理_字符串缺失值
第八章 SparkSQL-聚合与连接
01_聚合操作_groupBy_数据读取
02_聚合操作_groupBy_聚合操作
03_聚合操作_多维聚合_需求介绍
04_聚合操作_多维聚合_编写代码
05_聚合操作_多维聚合_rollup
06_聚合操作_多维聚合_rollup案例
07_聚合操作_多维聚合_cube
08_聚合操作_多维聚合_cubeSQL
09_聚合操作_多维聚合_GroupedDataset
10_连接操作_入门_介绍
11_连接操作_入门_案例
12_连接操作_连接类型_cross
13_连接操作_连接类型_inner
14_连接操作_连接类型_fullouter
15_连接操作_连接类型_left
16_连接操作_连接类型_semi&anti
17_函数_UDF
18_函数_窗口1
19_函数_窗口2
第九章 SparkSQL-综合案例
01_项目分析_业务场景
02_项目分析_流程分析
03_工程搭建_创建
04_工程搭建_读取数据
05_数据清洗_思路和步骤
06_数据清洗_创建Trip类
07_数据清洗_包装Row处理空值
08_数据清洗_数据转换
09_数据清洗_异常处理_Either
10_数据清洗_异常处理_完成逻辑
11_数据清洗_转换完成
12_数据清洗_剪除反常数据_统计分布
13_数据清洗_剪除反常数据
14_行政区信息_介绍
15_行政区信息_JSON解析
16_行政区信息_GeoJSON介绍
17_行政区信息_JSON解析实现
18_行政区信息_Geometry实现
19_行政区统计_功能实现
20_会话统计_得出结果
第十章 SparkStreaming
01_SparkStreaming介绍_场景
02_SparkStreaming介绍_流计算和批计算的区别
03_SparkStreaming介绍_架构
04_SparkStreaming介绍_特点
05_SparkStreaming案例_Socket回顾
06_SparkStreaming案例_Netcat
07_SparkStreaming案例_创建工程
08_SparkStreaming案例_代码编写
09_SparkStreaming案例_运行
10_SparkStreaming案例_解释说明
11_SparkStreaming原理_问题提出
12_SparkStreaming原理_DStream的有向无环图
13_SparkStreaming原理_DStream的静态和动态
14_SparkStreaming原理_Receiver
15_SparkStreaming原理_容错
16_Streaming_操作_updateStateByKey
17_Streaming_操作_updateStateByKey代码
18_Streaming_操作_窗口_代码
19_Streaming_操作_窗口_讲解
第十一章 StructuredStreaming
01_Structured_介绍_历史更迭
02_Structured_介绍_序列化更迭
03_Structured_介绍_对比
04_Structured_案例_介绍
05_Structured_案例_代码编写
06_Structured_案例_运行和总结
07_Structured_体系结构_无限扩展的表
08_Structured_体系结构
09_Structured_Source_HDFS_案例介绍
10_Structured_Source_HDFS_生成并上传文件到HDFS
11_Structured_Source_HDFS_Spark代码
12_Structured_Source_Kafka_回顾
13_Structured_Source_Kafka_整合