一、解压hadoop:
tar -zxvf hadoop-2.6.0.tar.gz解压完以后会出现hadoop目录 然后修改路径与名称 方便后期处理
二、进入/work/hadoop/etc/hadoop目录 修改配置文件slaves 删除原来的所有内容,修改为如下 : yangyangNode1 yangyangNode2 这里需要配置好/etc/hosts中的映射 不然会找不到子机
三、修改配置文件:hadoop-env.sh 添加 export JAVA_HOME=/work/jdk //java路径 需自行修改 四、修改配置文件:core-site.xml 添加如下:
<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://yangyangMaster:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/work/hadoop/tmp</value> </property> <property> <name>fs.trash.interval</name> <value>1440</value> </property> </configuration>fs.defaultFS : 可以不写主机名称 直接写IP 五、修改配置文件: hdfs-site.xml 添加如下:
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.permissions</name> <value>false</value> </property> </configuration>这里dfs.replication:1 控制的是保存副本的个数 一般来说是3 这里个人练习没有必要那么多 六、修改配置文件:yarn-site.xml 添加如下:
<configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>yangyangMaster</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.log-aggregation-enable</name> <value>true</value> </property> <property> <name>yarn.log-aggregation.retain-seconds</name> <value>604800</value> </property> <property> <name>yarn.nodemanager.resource.memory-mb</name> <value>20480</value> </property> <property> <name>yarn.scheduler.minimum-allocation-mb</name> <value>2048</value> </property> <property> <name>yarn.nodemanager.vmem-pmem-ratio</name> <value>2.1</value> </property> </configuration>yarn.scheduler.minimum-allocation-mb 这里需要根据个人虚拟机配置的内存来设定 若运行期间内存不够,ResourceManager这个进程就会自动消失 七、修改配置文件:mapred-site.xml hadoop里面没有直接给出配置文件,只有一个副本。需要复制一份
cp mapred-site.xml.template mapred-site.xml向mapred-site.xml添加如下:
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>mapreduce.jobhistory.address</name> <value>yangyangMaster:10020</value> </property> <property> <name>mapreduce.jobhistory.webapp.address</name> <value>yangyangMaster:19888</value> </property> </configuration>八、分发配置好的hadoop文件到子机上:
scp -r /work/hadoop yangyangNode1:/work/ scp -r /work/hadoop yangyangNode2:/work/九、配置环境变量 : vi /etc/profile
向其中添加:
export HADOOP_HOME=/work/hadoop export PATH=.:$HADOOP_HOME/bin:$PATHsource /etc/profile 重启环境变量
十、启动: 先查看一下 hadoop目录下是否有tmp文件夹 如果没有 执行一次格式化命令: cd /work/hadoop 进入hadoop目录下 执行命令:./bin/hdfs namenode -format 会生成tmp文件。
启动执行 ./sbin/start-all.sh
此时查看在三台主机上查看进程:jps 可以看到主节点上有三个进程 : Namenode Secondarnamenode Resourcemanager 从节点上有两个进程 : Datanode Nodenodemanager
同样你也可以在window环境下登录 192.168.218.6:50070 查看相关信息 浏览器推荐:Chrome 192.168.218.6:是你的主机地址 若是出现以上两个部分 则证明你的hadoop集群已经搭建好了 这里推荐:不要关闭虚拟机,直接挂起。 关机相当于把集群直接断电,再次启动可能会出现异常
修改完相关文件以后: 1.需要删除每台主机hadoop目录下的tmp文件夹 rm -rf /work/hadoop/tmp 2.在主节点执行命令: ./bin/hdfs namenode -format 再执行启动命令