Flink API入门

    技术2025-08-03  28

    Flink数据处理流程

     

       通过前面的文章我们大概了解了实时流处理框架,这篇文章开始我们将详细来学习下Flink的使用。Flink为开发流式/批处理应用程序提供了不同级别的抽象。

    而这几个抽象的模块中DataStream API用于处理实时流处理,DataSet API用于离线批处理。

     

    入门Flink API

     

          后面我们都选择使用Scala来完成Flink程序的编写,当然你也可以选择Java或者Python。Scala DataSet API的所有核心类都在包org.apache.flink.api.scala中,DataStream API都在org.apache.flink.streaming.api.scala中。

     

    要执行一个flink程序首先要获取一个执行环境,获得一个执行环境有三种方式:

     

    getExecutionEnvironment() 

    createLocalEnvironment() 

    createRemoteEnvironment(host: String, port: Int, jarFiles: String*)

     

    DataSet我们建议这样获取:

     

    val env =
    Processed: 0.009, SQL: 10