在一些情景下,需要用spark读取hadoop的文件的具体内容,这里做一下简单介绍。
pom.xml如下:
<dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>2.1.1</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.0.0</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.0.0</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.0</version> </dependency> </dependencies>这样就可以读取到hadoop文件中的具体内容,结合实际需求做相应处理即可。 这里有一个和这个有关的项目的文章,建议一看 Java,Scala - 使用代码统计hadoop中hdfs的文件大小以及文件夹大小