使用spark读取hadoop文件的具体内容

    技术2024-01-10  70

    文章目录

    pom.xml具体代码以及注释

          在一些情景下,需要用spark读取hadoop的文件的具体内容,这里做一下简单介绍。

    pom.xml

          pom.xml如下:

    <dependencies> <dependency> <groupId>org.apache.hive</groupId> <artifactId>hive-jdbc</artifactId> <version>2.1.1</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version>3.0.0</version> </dependency> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>3.0.0</version> </dependency> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.4.0</version> </dependency> </dependencies>

    具体代码以及注释

    import org.apache.spark.{SparkConf, SparkContext} object test { def main(args: Array[String]): Unit = { // 本地模式, AppName里的参数可以随便写 val conf = new SparkConf().setAppName("test").setMaster("local[*]") val sc = new SparkContext(conf) // 地址和端口是hadoop的,路径是要读取的文件 val hadoopRdd = sc.textFile( "hdfs://172.0.0.1:9000/user/hive/warehouse/test.db/t1/dt=1/t1" ) println(hadoopRdd.count()) } }

          这样就可以读取到hadoop文件中的具体内容,结合实际需求做相应处理即可。       这里有一个和这个有关的项目的文章,建议一看       Java,Scala - 使用代码统计hadoop中hdfs的文件大小以及文件夹大小              

    Processed: 0.011, SQL: 9