liunx-搭建hadoop(2.7.1)和使用

    技术2022-07-11  111

    1.搭建

    1.集群

    jdk安装

    配置JDK环境变量

    在局域网中关闭防火墙

    service iptables stop

    设置主机映射

    1. 打开配置文件 vim /etc/hosts 2. 内容 192.168.80.111 server1 192.168.80.112 server2 192.168.80.110 server3

    配置SSH免密登录

    1. 生成私钥 ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 2. 将私钥添加公钥中 cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys 3. 将多台的 authorized_keys 内容合并一起,之后放入各自的authorized_keys

    安装hadoop

    上传hadoop

    放入指定文件夹 /download

    在 / 目录下创建一个hadoopServer的文件夹

    mkdir /hadoopServer

    解压hadoop的压缩包,之后把解压的hadoop移入到 /hadoopServer

    进入 cd /download 解压 tar -zxvf hadoop.tar 移动 mv hadoop /hadoopServer

    配置环境变量

    1. 打开配置文件 vim /etc/profile 2. 内容 export HADOOP_HOME=/hadoopServer/hadoop export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin

    在 hadoopServer/hadoop中创建文件夹(数据节点)

    cd /hadoopServer/hadoop 1. 创建临时目录 mkdir tmp 2. 创建服务节点的文件夹 mkdir -p /hdfs/namenode 3. 创建数据节点存放的位置 mkdir -p /hdfs/data

    在 /hadoopServer/hadoop/hadoop-2.7.1/etc/hadoop 拷贝

    cp mapred-site.xml.template mapred-site.xml

    在 /hadoopServer/hadoop/hadoop-2.7.1/etc/hadoop 修改配置

    1. hadoop-env.sh ## 1. 修改java_home export JAVA_HOME=/usr/local/java 2. yarn-env.sh ## 修改 java_home # some Java parameters export JAVA_HOME=/usr/local/java 3. core-site.xml <configuration> <!-- 配置主机--> <property> <name>fs.default.name</name> <value>hdfs://192.168.80.111:9000</value> <description>HDFS的URI</description> </property> <!-- 配置临时目录--> <property> <name>hadoop.tmp.dir</name> <value>/hadoopServer/hadoop-2.7.1/tmp</value> <description>tmmp dir</description> </property> </configuration> 4. hdfs-site.xml <configuration> <!-- 配置元数据--> <property> <name>dfs.name.dir</name> <value>/hadoopServer/hadoop-2.7.1/hdfs/namenode</value> <description>namenode</description> </property> <!-- 物理存储位置--> <property> <name>dfs.data.dir</name> <value>/hadoopServer/hadoop-2.7.1/hdfs/data</value> <description>datanode</description> </property> <!-- 副本个数,要小于等于实际的Hadoop服务的个数--> <property> <name>dfs.replication</name> <value>3</value> <description>dis number</description> </property> </configuration> 5. mapred-site.xml <configuration> <!-- 启动yarn --> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration> 6. yarn-site.xml <configuration> <!-- Site specific YARN configuration properties --> <!-- 启动shuffle job--> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> <description>shuffle job</description> </property> <!-- yarn的web监视端口--> <property> <name>yarn.resourcemanager.webapp.address</name> <value>192.168.80.111:8099</value> <description>year web</description> </property> </configuration> 7. slaves ## 配置连接节点 192.168.80.111 192.168.80.112 192.168.80.110

    远程复制(其他节点)

    1. 格式 scp -r 目录 root@[hostName]:[目标地址] 2. 实操 scp -r /hadoopServer root@server1:/hadoopServer

    进行格式化

    1. 进入hadoop的bin目录 cd /hadoopServer/hadoop/bin 2. 执行格式化(只用在主服务上使用一次就可以) ./hdfs namenode -format

    2.伪集群

    修改配置(在安装之后,变为伪集群) 1. 修改配置 1. hdfs-site.xml <!--为单台节点--> <property> <name>dfs.replication</name> <value>1</value> <description> dis number </description> </property> 2. slaves localhost 2. 删除旧版信息(如果之前安装过,就要进行此步骤) cd /tmp/ rm -rf * cd /hadoopServer/hadoop-2.7.1/tmp/ rm -rf * cd ../logs/ rm -rf * cd ../hdfs/namenode/ rm -rf * cd ../datanode/ rm -rf * 3. 重新格式化 ./hdfs namenode -format 4. 就可以启动

    2.使用

    1. 启动 start-all.sh 2. 停止 stop-all.sh

    3. 注意

    1. 格式化

    不要多次格式化,会造成事务ID不一致

    2. 管理后台

    http://192.168.63.110:50070/ 端口 50070

    2. 出现安装失败

    删除旧版信息

    cd /tmp rm -rf * cd /hadoopServer/hadoop-2.7.1/tmp rm -rf * cd ../logs/ rm -rf * cd ../hdfs/namenode rm -rf * cd ../datanode/ rm -rf *

    格式化

    1. 进入bin目录 cd /hadoopServer/hadoop-2.7.1/bin 2. 格式化 ./hdfs namenode -format
    Processed: 0.012, SQL: 9