Spark: foreach,map,foreachPartition

Spark: foreach,map,foreachPartition,第1张

Spark: foreach,map,foreachPartition
  1. foreach算子对RDD中数据遍历,通过累加器进行计算,没有返回值,是在Driver端执行.(action算子)。
  2. map算子对RDD中数据遍历,通过累加器进行计算,有返回值,在executor端执行.(transformation算子)。

  3. mapPartitions:用于遍历 *** 作RDD中的每一个分区,返回生成一个新的RDD(transformation算子)。

  4. foreachPartition: 用于遍历 *** 作RDD中的每一个分区。无返回值(action算子)。                               

  5. 总结:一般使用mapPartitions或者foreachPartition算子比map和foreach更加高效,推荐使用。

欢迎分享,转载请注明来源:内存溢出

原文地址:https://www.54852.com/zaji/5698725.html

(0)
打赏 微信扫一扫微信扫一扫 支付宝扫一扫支付宝扫一扫
上一篇 2022-12-17
下一篇2022-12-17

发表评论

登录后才能评论

评论列表(0条)

    保存