HADOOP搭建（1） hadoop集群搭建

技术2022-07-11 97

准备

三台虚拟机创建好ssh链接安装好java 安装java可参考主机IP主机名称192.168.218.6yangyangMaster192.168.218.7yangyangNode1192.168.218.5yangyangNode2 hadoop安装包： hadoop-2.6.0.tar.gz

正文

一、解压hadoop：

tar -zxvf hadoop-2.6.0.tar.gz

解压完以后会出现hadoop目录然后修改路径与名称方便后期处理

二、进入/work/hadoop/etc/hadoop目录修改配置文件slaves 删除原来的所有内容，修改为如下： yangyangNode1 yangyangNode2 这里需要配置好/etc/hosts中的映射不然会找不到子机

三、修改配置文件：hadoop-env.sh 添加 export JAVA_HOME=/work/jdk //java路径需自行修改四、修改配置文件：core-site.xml 添加如下：

<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://yangyangMaster:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/work/hadoop/tmp</value> </property> <property> <name>fs.trash.interval</name> <value>1440</value> </property> </configuration>

fs.defaultFS : 可以不写主机名称直接写IP 五、修改配置文件： hdfs-site.xml 添加如下：

<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.permissions</name> <value>false</value> </property> </configuration>

这里dfs.replication:1 控制的是保存副本的个数一般来说是3 这里个人练习没有必要那么多六、修改配置文件：yarn-site.xml 添加如下：

<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>yangyangMaster</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>20480</value> </property> <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>2048</value> </property> <property> <name>yarn.nodemanager.vmem-pmem-ratio</name> <value>2.1</value> </property> </configuration>

yarn.scheduler.minimum-allocation-mb 这里需要根据个人虚拟机配置的内存来设定若运行期间内存不够，ResourceManager这个进程就会自动消失七、修改配置文件：mapred-site.xml hadoop里面没有直接给出配置文件，只有一个副本。需要复制一份

cp mapred-site.xml.template mapred-site.xml

向mapred-site.xml添加如下：

<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>yangyangMaster:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>yangyangMaster:19888</value> </property> </configuration>

八、分发配置好的hadoop文件到子机上：

scp -r /work/hadoop yangyangNode1:/work/ scp -r /work/hadoop yangyangNode2:/work/

九、配置环境变量： vi /etc/profile

向其中添加：

export HADOOP_HOME=/work/hadoop export PATH=.:$HADOOP_HOME/bin:$PATH

source /etc/profile 重启环境变量

十、启动：先查看一下 hadoop目录下是否有tmp文件夹如果没有执行一次格式化命令： cd /work/hadoop 进入hadoop目录下执行命令：./bin/hdfs namenode -format 会生成tmp文件。

启动执行 ./sbin/start-all.sh

此时查看在三台主机上查看进程：jps 可以看到主节点上有三个进程 : Namenode Secondarnamenode Resourcemanager 从节点上有两个进程 : Datanode Nodenodemanager

同样你也可以在window环境下登录 192.168.218.6：50070 查看相关信息浏览器推荐：Chrome 192.168.218.6：是你的主机地址若是出现以上两个部分则证明你的hadoop集群已经搭建好了这里推荐：不要关闭虚拟机，直接挂起。关机相当于把集群直接断电，再次启动可能会出现异常

若是在启动过程中出现了问题：

修改完相关文件以后： 1.需要删除每台主机hadoop目录下的tmp文件夹 rm -rf /work/hadoop/tmp 2.在主节点执行命令: ./bin/hdfs namenode -format 再执行启动命令

Processed: 0.013, SQL: 9