基于Flume、Kafka、Spark的完整日志分析系统启动过程

    技术2022-07-11  82

    这篇文章主要记录的日志分析系统相关软件的启动命令,有助于后面可以写自动化启动脚本

    Hadoop

    启动Hadoop和HDFS

    $ start-dfs.sh $ start-yarn.sh

    Zookeeper

    启动分布式协调服务Zookeeper,提供kafka的运行环境

    $ zkServer.sh start zoo1.cfg $ zkServer.sh start zoo2.cfg $ zkServer.sh start zoo3.cfg

    Nginx&Python3 Flask

    提供靶机及web服务和web日志

    $ sudo setenforce 0 $ systemctl start nginx $ python3 ~/apps/xss_test_server.py

    Flume & kafka

    启动Flume采集日志,并用kafka测试日志流是否可以正常消费

    $ ./bin/kafka-server-start.sh -daemon ./config/server-1.properties $ ./bin/flume-ng agent --conf ./conf --conf-file ./conf/flume-log-conf.properties --name agent1 -Dflume.root.logger=INFO,console $ #test consume $ ./bin/kafka-console-consumer.sh --bootstrap-server magic:9092 --topic log-collect --from-beginning

    spark

    启动Spark服务,并以jar包提交给spark运行

    $ ./sbin/start-master.sh # 8008 port $ ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://magic:7077 $ ./bin/spark-submit --master spark://localhost:7077 --class streaming /home/user/Web_Log_Analyser.jar #--jars /usr/local/kafka_2.12-2.5.0/libs/kafka-clients-2.5.0.jar --packages org.apache.spark:spark-streaming-kafka-0-10_2.12:2.4.6 magic:2181 test log-collect 1
    Processed: 0.016, SQL: 9