使用spark读取hadoop文件的具体内容

技术2024-01-10 70

文章目录

pom.xml具体代码以及注释

在一些情景下，需要用spark读取hadoop的文件的具体内容，这里做一下简单介绍。

pom.xml

pom.xml如下：

<dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>2.1.1</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.0.0</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.0.0</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.0</version> </dependency> </dependencies>

具体代码以及注释

import org.apache.spark.{SparkConf, SparkContext} object test { def main(args: Array[String]): Unit = { // 本地模式， AppName里的参数可以随便写 val conf = new SparkConf().setAppName("test").setMaster("local[*]") val sc = new SparkContext(conf) // 地址和端口是hadoop的，路径是要读取的文件 val hadoopRdd = sc.textFile( "hdfs://172.0.0.1:9000/user/hive/warehouse/test.db/t1/dt=1/t1" ) println(hadoopRdd.count()) } }

这样就可以读取到hadoop文件中的具体内容，结合实际需求做相应处理即可。这里有一个和这个有关的项目的文章，建议一看 Java，Scala - 使用代码统计hadoop中hdfs的文件大小以及文件夹大小

Processed: 0.011, SQL: 9