Spark性能调优实战(HTML MP3 PDF完结)-免费资源网

Spark性能调优实战(HTML MP3 PDF完结)

【课程介绍】
Spark性能调优实战(HTML+MP3+PDF完结)

目前,Spark已然成为分布式数据处理技术的事实标准,也在逐渐成为各大头部互联网公司的标配。对于数据领域的任何一名工程师来说,Spark开发都是一项必备技能;而想要进入大厂,就更得有丰富的Spark性能调优经验。

可现实情况是,我们想要快速上手开发应用很容易,把握应用的执行性能却总也找不到头绪,比如:

  • 明明都是内存计算,为什么我用了RDD/DataFrame Cache,性能反而更差了?
  • 网上吹得神乎其神的调优手段,为啥到了我这就不好使呢?
  • 并行度设置得也不低,为啥我的CPU利用率还是上不去?
  • 节点内存几乎全都划给Spark用了,为啥我的应用还是OOM?
为此,我们特意邀请到了吴磊老师,他根据自己多年的数据处理经验,梳理出了一套关于性能调优的方法论,帮助你在有效加速 Spark 作业执行性能的同时,也建立起以性能为导向的开发习惯。

除此之外,他还会手把手教你打造一个分布式应用,带你从不同角度洞察汽油车摇号的趋势和走向,让你对性能调优技巧和思路的把控有一个“质的飞跃”。

【课程目录】
课前必学 (3讲)

开篇词 | Spark性能调优,你该掌握这些“套路”

01 | 性能调优的必要性:Spark本身就很快,为啥还需要我调优?

02 | 性能调优的本质:调优的手段五花八门,该从哪里入手?


原理篇 (5讲)

03 | RDD:为什么你必须要理解弹性分布式数据集?

04 | DAG与流水线:到底啥叫“内存计算”?

05 | 调度系统:“数据不动代码动”到底是什么意思?

06 | 存储系统:空间换时间,还是时间换空间?

07 | 内存管理基础:Spark如何高效利用有限的内存空间?


通用性能调优篇 (12讲)

08 | 应用开发三原则:如何拓展自己的开发边界?

09 | 调优一筹莫展,配置项速查手册让你事半功倍!(上)

10 | 调优一筹莫展,配置项速查手册让你事半功倍!(下)

11 | 为什么说Shuffle是一时无两的性能杀手?

12 | 广播变量(一):克制Shuffle,如何一招制胜!

13 | 广播变量(二):如何让Spark SQL选择Broadcast Joins?

14 | CPU视角:如何高效地利用CPU?

15 | 内存视角(一):如何最大化内存的使用效率?

16 | 内存视角(二):如何有效避免Cache滥用?

17 | 内存视角(三):OOM都是谁的锅?怎么破?

18 | 磁盘视角:如果内存无限大,磁盘还有用武之地吗?

19 | 网络视角:如何有效降低网络开销?


Spark SQL 性能调优篇 (12讲)

20 | RDD和DataFrame:既生瑜,何生亮?

21 | Catalyst逻辑计划:你的SQL语句是怎么被优化的?(上)

22 | Catalyst物理计划:你的SQL语句是怎么被优化的(下)?

23 | 钨丝计划:Tungsten给开发者带来了哪些福报?

24 | Spark 3.0(一):AQE的3个特性怎么才能用好?

25 | Spark 3.0(二):DPP特性该怎么用?

26 | Join Hints指南:不同场景下,如何选择Join策略?

27 | 大表Join小表:广播变量容不下小表怎么办?

28 | 大表Join大表(一):什么是“分而治之”的调优思路?

29 | 大表Join大表(二):什么是负隅顽抗的调优思路?

30| 应用开发:北京市小客车(汽油车)摇号趋势分析

31 | 性能调优:手把手带你提升应用的执行性能


特别放送 (2讲)

Spark UI(上)| 深入解读Spark作业的“体检报告”

Spark UI(下):深入解读Spark作业的“体检报告”


结束语 (2讲)

Spark性能调优实战(HTML+MP3+PDF完结)

本站所有课程资源均为用户上传,如有侵权,请联系邮箱提供相应材料,我们会尽快删除
免费资源网 » Spark性能调优实战(HTML MP3 PDF完结)