Appearance
1.Spark概念和架构介绍
这部分内容主要介绍了Spark的设计背景、核心理念RDD、系统架构以及并行计算原理等概念,为后续深入学习奠定基础。
1.1 Spark的背景和优势
- 传统MapReduce框架的局限性
- Spark解决的三大痛点:迭代计算低效、实时计算能力差、内存利用率低
- Spark三大核心优势:高速、通用、容错
1.2 Spark核心概念- RDD
- RDD的定义和特点
- 不可变的分布式数据集
- 并行计算和容错能力
1.3 Spark架构和核心模块
- 主从架构:Driver和Executor
- 核心模块:Core、SQL、Streaming、MLlib、GraphX等
- 与资源管理系统对接
1.4 RDD并行计算原理
- 切分、计算、结果三阶段
- 任务调度和执行
- 基于数据血缘的容错
1.5 Spark适用场景
- 批处理大数据分析
- 实时流式计算
- 机器学习和数据挖掘
- 图计算
- SQL查询和数据分析
