Skip to content

1.Spark概念和架构介绍

这部分内容主要介绍了Spark的设计背景、核心理念RDD、系统架构以及并行计算原理等概念,为后续深入学习奠定基础。

1.1 Spark的背景和优势

  • 传统MapReduce框架的局限性
  • Spark解决的三大痛点:迭代计算低效、实时计算能力差、内存利用率低
  • Spark三大核心优势:高速、通用、容错

1.2 Spark核心概念- RDD

  • RDD的定义和特点
  • 不可变的分布式数据集
  • 并行计算和容错能力

1.3 Spark架构和核心模块

  • 主从架构:Driver和Executor
  • 核心模块:Core、SQL、Streaming、MLlib、GraphX等
  • 与资源管理系统对接

1.4 RDD并行计算原理

  • 切分、计算、结果三阶段
  • 任务调度和执行
  • 基于数据血缘的容错

1.5 Spark适用场景

  • 批处理大数据分析
  • 实时流式计算
  • 机器学习和数据挖掘
  • 图计算
  • SQL查询和数据分析