【大数据】Hadoop WordCount示例

    技术2022-07-12  77

    条件

    采用64位Oracle Linux 6.4, JDK:1.8.0_131 64位, Hadoop:2.7.3 Spark集群实验环境共包含3台服务器,每台机器的主要参数如表所示:

    服务器HOSTNAMEIP功能spark1spark192.16.17.1NN/DN/RM Master/Workerspark2spark292.16.17.2DN/NM/Workerspark3spark392.16.17.3DN/NM/Worker

    过程

    首先搭建好 Hadoop 分布式环境。在此之上,我们可以进行 MapReduce 相关的开发工作,本实验使用两种方式实现 MapReduce 中典型的 wordcount 作业 使用官方提供的包含测试程序的包 hadoop-mapreduce-examples- 2.7.jar,此包已上传至/stage 目录 wordcount 测试程序提供了对日志文件中单词的计数统功能,测试用数据文件 airport-codes-na.txt 是美国机场数据文件,该文件已上在 /stage 目录下: 实现的该作业的第一步就是需要把airport-codes-na.txt数据文件上传至HDFS 文件系统中,首先在HDFS中创建一个input目录,然后将数据文件上传至 input 目录中: 运行wordcount测试程序: WordCount程序的运行结果保存在HDFS文件系统的/output/part-r-00000中 统计结果比较多,下面仅截取部分片段:

    Processed: 0.017, SQL: 9