Spark如何遍历Rdd中的元素

技术2022-07-14 81

通常我们Spark程序处理数据时，会遇到将rdd的数据进行观察的情况，但是 RDD[String]类型又不能直接打印出来结果，或者说有遇到需要将rdd中的结果数据取出作为变量继续计算的情况。

1）使用 collect 函数

从collect函数解释来看，知道collect的返回类型是一个数组，可以通过下标或

.collect.mkstring("")

这样的方式浏览数据

但是 collect是将数据拉取到driver端，数据量太大的话，可能会报内存溢出的问题，而且，在driver端的数据worker节点的机器就不能访问到该数据还需要将它添加成一个广播变量分到到executer中

2）使用foreach函数

直接对rdd进行循环打印

rdd.tabke（1000）.foreach（println）

就可以实现循环遍历数据，这样的好处就是分布式仍保持分布式的优势，不用集中到某一台去看数据，节省内存消耗

3） save函数

直接将文件保存到本地的某个目录查看

以上三个函数各有使用场景，根据需要选择适合的就行。

Processed: 0.011, SQL: 10