文章参考了腾讯云的"如何在CDH集群中安装Hive2.3.3" https://cloud.tencent.com/developer/article/1158296 并在他的基础上补充了很多细节操作,同时也会跟大家普及Hive1和Hive2共用元数据的方法,这样就可以免去重新抽取数据的痛苦,在搭建完Hive2之后直接可以使用原hive1的所有数据.
将Mysql作为Hive2的元数据库,因为如果用自带的dbType数据库,不支持并行.执行语句如下
CREATE DATABASE hive2metastore DEFAULT CHARACTER SET UTF8; CREATE USER 'hive2'@'%' IDENTIFIED BY '密码'; GRANT ALL PRIVILEGES ON hive2metastore.* TO 'hive2'@'%'; FLUSH PRIVILEGES;hive-env.sh hive-default.xml hive-log4j2.properties hive-exec-log4j2.properties
安装包本身自带的配置文件改名成正式文件:
cp hive-env.sh.template hive-env.sh cp hive-default.xml.template hive-site.xml cp hive-log4j2.properties.template hive-log4j2.properties cp hive-exec-log4j2.properties.template hive-exec-log4j2.properties 其中hive-env.sh添加环境变量: export JAVA_HOME=/usr/java/jdk1.8.0_162 (你自己安装的jdk路径) export HIVE2_HOME=/opt/cloudera/hive-2.3.7 export HIVE2_CONF_DIR=/opt/cloudera/hive2.3.7/conf在/opt/cloudera/hive2.3.7/conf目录下执行
ln -s /etc/hadoop/conf.cloudera.yarn/ yarn-confjavax.jdo.option.ConnectionDriverName javax.jdo.option.ConnectionURL javax.jdo.option.ConnectionUserName javax.jdo.option.ConnectionPassword hive.exec.scratchdir hive.metastore.warehouse.dir hive.repl.rootdir hive.repl.cmrootdir
参考样例:
Hive2的metastore地址: <name>hive.metastore.uris</name> <value>thrift://192.168.5.x:9083</value> 数据库连接属性 数据库连接用户名: <name>javax.jdo.option.ConnectionUserName</name> <value>root</value> 数据库连接密码: <name>javax.jdo.option.ConnectionPassword</name> <value>密码</value> 连接地址,数据库,属性: <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://192.168.5.x:3306/hive2metastore?useUnicode=true&characterEncoding=UTF-8;useSSL=flase</value> 连接驱动: <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> HDFS存储路径: <name>hive.exec.scratchdir</name> <value>/tmp/hive2</value> Hive2的表的默认位置: <name>hive.metastore.warehouse.dir</name> <value>/user/hive2/warehouse</value> 映射位置: <name>hive.repl.rootdir</name> <value>/user/hive2/repl/</value> cm的映射位置: <name>hive.repl.cmrootdir</name> <value>/user/hive2/cmroot/</value>将usr/share/java/mysql-connector.jar复制到Hive2的lib目录下 如果没有这个jar包,需要对应你当前安装的mysql版本去下载,然后放到lib目录
mkdir -p /opt/cloudera/hive-2.3.7/tmp/ chmod 777 /opt/cloudera/hive-2.3.7/tmp/
{system:java.io.tmpdir} 改成 /opt/cloudera/hive-2.3.7/tmp/ 把{system:user.name} 改成 {user.name}
样例:一共四处:
<name>hive.exec.local.scratchdir</name> <value>/opt/cloudera/hive-2.3.7/tmp/${user.name}</value> <name>hive.downloaded.resources.dir</name> <value>/opt/cloudera/hive-2.3.7/tmp/${hive.session.id}_resources</value> <name>hive.querylog.location</name> <value>/opt/cloudera/hive-2.3.7/tmp/${user.name}</value> <name>hive.server2.logging.operation.log.location</name> <value>/opt/cloudera/hive-2.3.7/tmp/${user.name}/operation_logs</value>注意:如果Hive2的元数据库跟Hive1的元数据库使用同一个Mysql,会有报错的情况出现,避免这个问题,直接安装另一个Mysql作为Hive2的元数据库即可. 而且初始化失败也有原因是hive-site.xml的配置问题,因为配置的语句复杂度相对较高,在javax.jdo.option.ConnectionURL,因为配置的属性太多,使用”;”时要添加转义字符&apm(xml文件采用的是html的编译规则),否则不能生效且报错.正确配置为: jdbc:mysql://192.168.5.x:3306/hive2metastore?useSSL=flase&characterEncoding=UTF-8)
为了避免与原hive1冲突,推荐是部署到不同的机器上,如果真要部署在同一台机器上,必须改端口号.
在上述操作的基础上,修改配置文件.
备份Hive1在Mysql当中的元数据库: mysqldump -uroot -p hive > metastore_backup.sql 修改Hive2的配置文件hive-site.xml: <name>javax.jdo.option.ConnectionURL</name> (把Hive2的Mysql元数据库直接指向Hive1的元数据库) <value>jdbc:mysql://192.168.5.x:3306/hive?useUnicode=true&useSSL=false&characterEncoding=UTF-8</value> <name>javax.jdo.option.ConnectionUserName</name> <value>hive</value> <name>javax.jdo.option.ConnectionPassword</name> <value>*</value> <name>hive.metastore.warehouse.dir</name> 把Hive2的warehouse也直接指向Hive1的warehouse <value>/user/hive/warehouse</value> 登陆mysql数据库,进入hive数据库,进入Hive2.3.7/metastore/scripts/upgrade/mysql/目录,执行该目录下的这5个升级元数据的脚本: source /tmp/mysql/upgrade-1.1.0-to-1.2.0.mysql.sql source /tmp/mysql/upgrade-1.2.0-to-2.0.0.mysql.sql source /tmp/mysql/upgrade-2.0.0-to-2.1.0.mysql.sql source /tmp/mysql/upgrade-2.1.0-to-2.2.0.mysql.sql source /tmp/mysql/upgrade-2.2.0-to-2.3.0.mysql.sql然后重启Hive2的服务.
这样,Hive2就能够直接复用Hive1的所有数据.
Hive2的JDBC连接方式报错解决 User: root is not allowed to impersonate hive. 关闭Hive2当中的HiveServer2连接配置调用操作, hive-site.xml下,修改如下配置:
<property> <name>hive.server2.enable.doAs</name> <value>false</value> <description> Setting this property to true will have HiveServer2 execute Hive operations as the user making the calls to it. </description> </property>Hive2.3与CDH原来的Hbase兼容使用 这种情况是Hive创建过Hbase的外表,Hive2需要对原Hive1创建的外表进行操作的时候要添加的. 修改Hive2的配置文件hive-site.xml,添加Hbase.zookeeper的指向:
<property> <name>hbase.zookeeper.quorum</name> <value>安装过zookeeper的主机名</value> </property> <property> <name>hbase.zookeeper.property.clientPort</name> <value>2181</value> </property>