
- foreach算子对RDD中数据遍历,通过累加器进行计算,没有返回值,是在Driver端执行.(action算子)。
-
map算子对RDD中数据遍历,通过累加器进行计算,有返回值,在executor端执行.(transformation算子)。
-
mapPartitions:用于遍历 *** 作RDD中的每一个分区,返回生成一个新的RDD(transformation算子)。
-
foreachPartition: 用于遍历 *** 作RDD中的每一个分区。无返回值(action算子)。
-
总结:一般使用mapPartitions或者foreachPartition算子比map和foreach更加高效,推荐使用。
欢迎分享,转载请注明来源:内存溢出
微信扫一扫
支付宝扫一扫
评论列表(0条)