
flink
文章平均质量分 61
_lrs
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
flink 学习(十五)flink table api
目录前言1、引入依赖2、基于流创建表3、表转换成流4、Table API5、SQL6、tableEnv 创建表7、sql 创建表8、explain前言flink 提供了 Table API 和 SQL的方式,可以通过sql来操作DataStream。原创 2022-05-03 14:19:51 · 3359 阅读 · 0 评论 -
flink 学习(十四)Process Function
目录前言示例前言process function是flink中的低阶流处理算子,它的几个概念:event:数据流中数据state:容错和一致性状态timers:基于事件时间或处理时间的定时器示例统计每秒钟key出现的次数,打印出每秒的key和count。1.数据 public class CountWithTimestamp { public String key; public long count; public long lastM原创 2022-04-28 00:00:20 · 543 阅读 · 0 评论 -
flink 学习(十三)数据流连接 join
目录前言一、inner join二、sliding-inner-join三、session-inner-join四、left-join四、interval-join前言一、inner join 两个流中的数据,通过join连接,在通过where和equalsTo条件判断后,条件成立并且处在同一个窗口内的数据会触发后续的窗口操作。(1)开启nc开启两个端口,模拟两个数据来源nc -lp 8888nc原创 2022-04-23 20:11:11 · 2303 阅读 · 0 评论 -
flink 学习(十二)Allowed Lateness和 Side Output
目录前言一、Allowed Lateness二、Side Output前言 在使用事件时间进行窗口操作时,事件达到的时机可能会出现延迟的情况。某个窗口的第一个事件到来时,会开启新的窗口,上一个窗口会在关闭或者在WaterMaker设置的延迟到达时关闭,窗口关闭后,后续处于这个窗口的事件将不会被处理。 而Allowe原创 2022-04-23 10:18:06 · 670 阅读 · 0 评论 -
flink 学习(十一)Watermark
目录前言一、时间语义二、Watermark三、AscendingTimestampsWatermarks前言一、时间语义1、Event Time 事件时间,是事件发生时的时间,在数据中带有描述时间的字段,由于从事件发生时到数据处理的过程中会经过不同的时间段,事件发生时间则很好的描述了数据的原始时间。相比其他时间语义,Event Time的事件时间是确定的,可以使用数据中的时间,也可以在数据到达flink之原创 2022-04-21 22:17:11 · 2393 阅读 · 1 评论 -
flink 学习(十)常用的窗口函数
目录前言1.ReduceFunction2.AggregateFunction3.ProcessWindowFunction4.ProcessWindowFunction-ReduceFunction5.ProcessWindowFunction-AggregateFunction6.WindowFunction前言记录一下几个简单的窗口函数1.ReduceFunction归约(1)数据源public class IntegerSource implements SourceFunction&原创 2022-04-19 23:36:46 · 1818 阅读 · 0 评论 -
flink 学习(九)flink会话窗口
目录前言1.ProcessingTime-Session-Window-WithGap2.EventTime-Session-Window-WithGap前言 会话窗口没有固定的开始和结束时间,数据不会重叠。在一段时间内没有接收到数据时当前会话窗口会关闭。会话窗口包括:ProcessingTimeSessionWindows.withGapProcessingTimeSessionWindows.wit原创 2022-04-17 23:39:53 · 2510 阅读 · 0 评论 -
flink 学习(八)flink滑动窗口
目录前言1.Sliding-ProcessingTime-Window2.Sliding-ProcessingTime-Window-Offset3.Sliding-Count-Window4.Sliding-EventTime-Window前言滑动窗口适用场景:比如行程卡上统计最近14天内途径的城市,每次统计数据中会有上一个窗口最后13天的行程数据和最新1天的数据。1.Sliding-ProcessingTime-Window基于数据处理时间的滑动窗口(1)数据源每秒生成一条数据publi原创 2022-04-17 17:21:29 · 5019 阅读 · 2 评论 -
flink 学习(七)flink 滚动窗口
文章目录前言1.Tumbling-ProcessingTime-Window2.Tumbling-ProcessingTime-Windows-Offset3.Tumbling-Count-Window4.Tumbling-EventTime-Window前言 Flink中的窗口算子,是处理无界流的核心,窗口将流分割成很多的“buckets”,每个bucket可以基于时间、元素个数等进行分隔,针对每一个buck原创 2022-04-16 23:12:01 · 4870 阅读 · 0 评论 -
flink 学习(六)flink常用算子
目录前言1.map2.flatMap3.filter4.keyBy5.max6.reduce7.connect8.union9.process前言Transform 数据转换算子,可以将一个或多个 DataStream 转换成新的 DataStream,可以将多个数据转换算子合并成一个复杂的数据流拓扑。1.map数据转换 @Test public void mapTest() throws Exception { final StreamExecutionEnvironme原创 2022-04-15 21:58:06 · 928 阅读 · 0 评论 -
flink 学习(五)hdfs 作为数据源
目录1.引入依赖2.创建hdfs文件3.从hdfs读取数据1.引入依赖<!-- https://mvnrepository.com/artifact/org.apache.flink/flink-hadoop-compatibility --><dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-hadoop-compatibility_2.12&原创 2022-04-13 21:38:24 · 1095 阅读 · 3 评论 -
flink 学习(四)kafka 作为数据源
目录前言1.引入依赖2.安装kafka3.启动生产者4.启动消费者前言1.引入依赖<!-- https://mvnrepository.com/artifact/org.apache.flink/flink-connector-kafka --><dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-kafka_2.12<原创 2022-04-08 22:45:07 · 1343 阅读 · 0 评论 -
flink 学习(三)mysql 作为数据源
目录前言一、jdbc数据源二、连接jdbc前言一、jdbc数据源1、引入依赖<!-- https://mvnrepository.com/artifact/org.apache.flink/flink-connector-jdbc --><dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-connector-jdbc_2.12</art原创 2022-04-07 21:56:53 · 2732 阅读 · 0 评论 -
flink 学习(二)socket流作为数据源
目录一、使用 nc1.安装nc2.连接nc三、使用 SocketServer1.启动SocketServer2.连接SocketServer一、使用 nc1.安装nc在linux服务器上使用yum安装,执行命令yum -y install nc启动nc,监听8888端口nc -lp 88882.连接nc @Test public void fromSocketTest() throws Exception { // flink 流执行环境 f原创 2022-04-06 22:04:19 · 2221 阅读 · 1 评论 -
flink 学习(一)java 整合 flink
目录前言一、流、批处理二、hello world1.环境2.流处理3.批处理4.自动处理三、文件数据源1.从文件中读取2.从目录中读取前言 Apache Flink 是一个框架和分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。一、流、批处理 &nbs原创 2022-04-05 18:18:46 · 5870 阅读 · 2 评论