基于Spark Streaming & Flume & Kafka & HBase模拟实时流处理
Spark Streaming数据处理代码:Spark Streaming数据处理代码 可视化项目代码:可视化项目
1、所需技术及版本
1、虚拟机3台 2、Jdk1.8 3、python-3.7.2 4、spark-2.2.1 5、kafka_2.12-2.4.0 6、zookeeper-3.4.14 7、hadoop-2.6.1 8、apache-flume-1.9.0 9、hbase-1.2.6
2、使用python日志生成器生成日志,并通过定时调度工具每分钟产生数据
a、python日志生成代码 generate_log.py 日志写到 /opt/script/project/logs/access.log 路径下
import random
import time
url_paths
= [
"c