(实战)基于Spark Streaming & Flume & Kafka & HBase模拟实时流处理

    技术2025-08-28  7

    基于Spark Streaming & Flume & Kafka & HBase模拟实时流处理

    Spark Streaming数据处理代码:Spark Streaming数据处理代码 可视化项目代码:可视化项目

    1、所需技术及版本

    1、虚拟机3台 2、Jdk1.8 3、python-3.7.2 4、spark-2.2.1 5、kafka_2.12-2.4.0 6、zookeeper-3.4.14 7、hadoop-2.6.1 8、apache-flume-1.9.0 9、hbase-1.2.6

    2、使用python日志生成器生成日志,并通过定时调度工具每分钟产生数据

    a、python日志生成代码 generate_log.py 日志写到 /opt/script/project/logs/access.log 路径下

    import random import time url_paths = [ "c
    Processed: 0.011, SQL: 9