基于Flume、Kafka、Spark的完整日志分析系统启动过程

技术2022-07-11 82

这篇文章主要记录的日志分析系统相关软件的启动命令，有助于后面可以写自动化启动脚本

Hadoop

启动Hadoop和HDFS

$ start-dfs.sh $ start-yarn.sh

Zookeeper

启动分布式协调服务Zookeeper，提供kafka的运行环境

$ zkServer.sh start zoo1.cfg $ zkServer.sh start zoo2.cfg $ zkServer.sh start zoo3.cfg

Nginx&Python3 Flask

提供靶机及web服务和web日志

$ sudo setenforce 0 $ systemctl start nginx $ python3 ~/apps/xss_test_server.py

Flume & kafka

启动Flume采集日志，并用kafka测试日志流是否可以正常消费

$ ./bin/kafka-server-start.sh -daemon ./config/server-1.properties $ ./bin/flume-ng agent --conf ./conf --conf-file ./conf/flume-log-conf.properties --name agent1 -Dflume.root.logger=INFO,console $ #test consume $ ./bin/kafka-console-consumer.sh --bootstrap-server magic:9092 --topic log-collect --from-beginning

spark

启动Spark服务，并以jar包提交给spark运行

$ ./sbin/start-master.sh # 8008 port $ ./bin/spark-class org.apache.spark.deploy.worker.Worker spark://magic:7077 $ ./bin/spark-submit --master spark://localhost:7077 --class streaming /home/user/Web_Log_Analyser.jar #--jars /usr/local/kafka_2.12-2.5.0/libs/kafka-clients-2.5.0.jar --packages org.apache.spark:spark-streaming-kafka-0-10_2.12:2.4.6 magic:2181 test log-collect 1

Processed: 0.016, SQL: 9