Spark如何遍历Rdd中的元素

    技术2022-07-14  81

    通常我们Spark程序处理数据时,会遇到将rdd的数据进行观察的情况,但是 RDD[String]类型又不能直接打印出来结果,或者说有遇到需要将rdd中的结果数据取出作为变量继续计算的情况。

    1) 使用 collect 函数

    从collect函数解释来看,知道collect的返回类型是一个数组,可以通过下标或

    .collect.mkstring("")

    这样的方式浏览数据

    但是 collect是将数据拉取到driver端,数据量太大的话,可能会报内存溢出的问题, 而且,在driver端的数据worker节点的机器就不能访问到该数据 还需要将它添加成一个广播变量 分到到executer中

    2)使用foreach函数

    直接对rdd进行循环打印

    rdd.tabke(1000.foreach(println)

    就可以实现循环遍历数据,这样的好处就是分布式仍保持分布式的优势,不用集中到某一台去看数据,节省内存消耗

    3) save函数

    直接将文件保存到本地的某个目录查看

    以上三个函数各有使用场景,根据需要选择适合的就行。

    Processed: 0.011, SQL: 10