非常好,让我们继续学习下一类Spark常用算子和函数——集合操作算子。

1.4.3 集合操作算子

集合操作算子用于对多个RDD进行集合运算,如并集、交集、差集等。这些算子可以方便地对不同的RDD数据集进行合并、过滤、比较等操作。

常用的集合操作算子包括:

union(other)

union算子将两个RDD合并为一个新的RDD,新RDD包含两个源RDD中的所有元素。

python

rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize([3, 4, 5])
union_rdd = rdd1.union(rdd2)
print(union_rdd.collect())  # 输出: [1, 2, 3, 3, 4, 5]

在这个例子中,我们使用union算子将rdd1和rdd2合并为一个新的RDD,新RDD包含了两个源RDD中的所有元素。

intersection(other)

intersection算子返回两个RDD的交集,即两个RDD中都存在的元素。

python

rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = sc.parallelize([3, 4, 5, 6, 7])
intersection_rdd = rdd1.intersection(rdd2)
print(intersection_rdd.collect())  # 输出: [3, 4, 5]

在这个例子中,我们使用intersection算子计算rdd1和rdd2的交集,得到了一个包含公共元素的新RDD。

subtract(other)

subtract算子返回一个RDD,其中包含调用RDD中存在但另一个RDD中不存在的元素。

python

rdd1 = sc.parallelize([1, 2, 3, 4, 5])
rdd2 = sc.parallelize([3, 4, 5, 6, 7])
subtracted_rdd = rdd1.subtract(rdd2)
print(subtracted_rdd.collect())  # 输出: [1, 2]

在这个例子中,我们使用subtract算子计算rdd1中存在但rdd2中不存在的元素,得到了一个新的RDD。

cartesian(other)

cartesian算子对两个RDD进行笛卡尔积操作,返回一个新的RDD,其中包含所有可能的元素对。

python

rdd1 = sc.parallelize([1, 2])
rdd2 = sc.parallelize(['a', 'b', 'c'])
cartesian_rdd = rdd1.cartesian(rdd2)
print(cartesian_rdd.collect())  # 输出: [(1, 'a'), (1, 'b'), (1, 'c'), (2, 'a'), (2, 'b'), (2, 'c')]

在这个例子中,我们使用cartesian算子计算rdd1和rdd2的笛卡尔积,得到了一个包含所有可能元素对的新RDD。

zip(other)

zip算子将两个RDD中的元素按照位置进行配对,形成一个新的(K, V)对的RDD。要求两个RDD中的元素数量相等。

python

rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize(['a', 'b', 'c'])
zipped_rdd = rdd1.zip(rdd2)
print(zipped_rdd.collect())  # 输出: [(1, 'a'), (2, 'b'), (3, 'c')]

在这个例子中,我们使用zip算子将rdd1和rdd2中的元素按照位置进行配对,得到了一个新的键值对RDD。

zipWithIndex()

zipWithIndex算子将RDD中的每个元素与其索引进行配对,形成一个新的(元素, 索引)对的RDD。

python

rdd = sc.parallelize(['a', 'b', 'c', 'd'])
zipped_rdd = rdd.zipWithIndex()
print(zipped_rdd.collect())  # 输出: [('a', 0), ('b', 1), ('c', 2), ('d', 3)]

在这个例子中,我们使用zipWithIndex算子将RDD中的每个元素与其索引进行配对,得到了一个新的键值对RDD。

集合操作算子提供了对多个RDD进行集合运算的便捷方法,可以方便地进行数据集的合并、过滤、比较等操作。在实际的数据处理任务中,我们经常需要使用这些算子来对不同的数据集进行组合和转换。

需要注意的是,某些集合操作算子(如subtract、intersection)会导致数据的重新分区和Shuffle操作,这可能会影响作业的性能。因此,在使用这些算子时,需要权衡数据集的大小、分区数、Shuffle成本等因素,以优化作业的执行效率。

希望通过这个小节的学习,你已经掌握了Spark中常用的集合操作算子的用法和特点。在接下来的课程中,我们将学习Spark的行动算子,这些算子用于触发RDD的计算并将结果返回给Driver程序或写入外部存储系统。

如果你有任何问题或想法,欢迎随时与我交流探讨。让我们一起继续探索Spark算子的世界!

1.1 词类

1.Spark概念和架构介绍

2.Spark运行原理和执行流程

3.Spark核心编程模型RDD

4.Spark常用算子和函数

5.Spark键值对RDD操作

6.Spark分区器和输入输出操作

1.4.3 集合操作算子

union(other)

intersection(other)

subtract(other)

cartesian(other)

zip(other)

zipWithIndex()

1.Spark概念和架构介绍

2.Spark运行原理和执行流程

3.Spark核心编程模型RDD

4.Spark常用算子和函数

5.Spark键值对RDD操作

6.Spark分区器和输入输出操作

1.4.3 集合操作算子 ​

union(other) ​

intersection(other) ​

subtract(other) ​

cartesian(other) ​

zip(other) ​

zipWithIndex() ​

1.4.3 集合操作算子

union(other)

intersection(other)

subtract(other)

cartesian(other)

zip(other)

zipWithIndex()