Spark集群搭建(Standalone模式)

    技术2022-07-10  164

    集群搭建(Standalone模式)

    下载安装包并解压

    # 解压 tar -zxvf spark-2.3.1-bin-hadoop2.6.tgz # 更改文件名 mv spark-2.3.1-bin-hadoop2.6 spark-2.3.1

    进入安装包的conf目录下,修改slaves.template文件

    先把slaves.template文件名改成 slaves

    # 更改文件名 mv slaves.template slaves

    然后添加从节点。保存。

    修改spark-env.sh.template 文件名为 spark-env.sh

    # 更改文件名 mv spark-env.sh.template spark-env.sh

    编辑spark-env.sh文件,进行配置:

    JAVA_HOME:配置java_home路径 SPARK_MASTER_HOST:master的ip SPARK_MASTER_PORT:提交任务的端口,默认是7077 SPARK_WORKER_CORES:每个worker从节点能够支配的core的个数 SPARK_WORKER_MEMORY:每个worker从节点能够支配的内存数

    同步到其他节点上

    scp -r spark-2.3.1 node2:`pwd` scp -r spark-2.3.1 node3:`pwd`

    启动集群

    进入sbin目录下,执行当前目录下的./start-all.sh

    访问master:8080端口

    yarn

    步骤1,2,3,4,5,7步同standalone。 需要修改/spark-2.3.1/conf/spark-env.sh

    HADOOP_CONF_DIR=/opt/source/hadoop-2.6.5/etc/hadoop

    Standalone提交命令:

    ./spark-submit --master spark://node01:7077 --class org.apache.spark.examples.SparkPi …/examples/jars/spark-examples_2.11-2.3.1.jar 100

    YARN提交命令:

    ./spark-submit --master yarn–class org.apache.spark.examples.SparkPi …/examples/jars/spark-examples_2.11-2.3.1.jar 100

    注意:yarn运行方式的时候,若运行失败,在yarn的web界面上面看到如下日志:

    即: Current usage: 176.6 MB of 1 GB physical memory used; 2.3 GB of 2.1 GB virtual memory used. Killing container. 这种错误,代表虚拟内存不足,可通过以下两种方式解决:

    调大虚拟内存比:

    yarn.nodemanager.vmem-pmem-ratio 默认2.1倍

    或者关闭虚拟内存检查:

    yarn.nodemanager.vmem-check-enabled 默认true

    emanager.vmem-pmem-ratio 默认2.1倍

    或者关闭虚拟内存检查:

    yarn.nodemanager.vmem-check-enabled 默认true

    以上两种配置,都在yarn-site.xml里配置,配置完后,重启yarn。stop-yarn.sh -> start-yarn.sh

    Processed: 0.011, SQL: 9