Spark集群搭建(Standalone模式)

技术2022-07-10 175

集群搭建(Standalone模式)

下载安装包并解压

# 解压 tar -zxvf spark-2.3.1-bin-hadoop2.6.tgz # 更改文件名 mv spark-2.3.1-bin-hadoop2.6 spark-2.3.1

进入安装包的conf目录下，修改slaves.template文件

先把slaves.template文件名改成 slaves

# 更改文件名 mv slaves.template slaves

然后添加从节点。保存。

修改spark-env.sh.template 文件名为 spark-env.sh

# 更改文件名 mv spark-env.sh.template spark-env.sh

编辑spark-env.sh文件，进行配置：

JAVA_HOME:配置java_home路径 SPARK_MASTER_HOST:master的ip SPARK_MASTER_PORT:提交任务的端口，默认是7077 SPARK_WORKER_CORES：每个worker从节点能够支配的core的个数 SPARK_WORKER_MEMORY:每个worker从节点能够支配的内存数

同步到其他节点上

scp -r spark-2.3.1 node2:`pwd` scp -r spark-2.3.1 node3:`pwd`

启动集群

进入sbin目录下，执行当前目录下的./start-all.sh

访问master:8080端口

yarn

步骤1，2，3，4，5，7步同standalone。需要修改/spark-2.3.1/conf/spark-env.sh

HADOOP_CONF_DIR=/opt/source/hadoop-2.6.5/etc/hadoop

Standalone提交命令：

./spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi …/examples/jars/spark-examples_2.11-2.3.1.jar 100

YARN提交命令：

./spark-submit --master yarn–class org.apache.spark.examples.SparkPi …/examples/jars/spark-examples_2.11-2.3.1.jar 100

注意：yarn运行方式的时候，若运行失败，在yarn的web界面上面看到如下日志：

即： Current usage: 176.6 MB of 1 GB physical memory used; 2.3 GB of 2.1 GB virtual memory used. Killing container. 这种错误，代表虚拟内存不足，可通过以下两种方式解决：

调大虚拟内存比：

yarn.nodemanager.vmem-pmem-ratio 默认2.1倍

或者关闭虚拟内存检查：

yarn.nodemanager.vmem-check-enabled 默认true

emanager.vmem-pmem-ratio 默认2.1倍

或者关闭虚拟内存检查：

yarn.nodemanager.vmem-check-enabled 默认true

以上两种配置，都在yarn-site.xml里配置，配置完后，重启yarn。stop-yarn.sh -> start-yarn.sh

Processed: 0.013, SQL: 9