flink常用算子介绍

最新推荐文章于 2025-06-22 14:39:30 发布

原创

最新推荐文章于 2025-06-22 14:39:30 发布 · 3.9k 阅读

CC 4.0 BY-SA版权

Flink中的算子是将一个或多个DataStream转换为新的DataStream，可以将多个转换组合成复杂的数据流拓扑。

在Flink中，有多种不同的DataStream类型，他们之间是使用各种算子进行的。如下图所示：

Flink DataStream

mapDataStream --> DataStream]：输入一个参数产生一个参数，map的功能是对输入的参数进行转换操作。
flatMap[DataStream --> DataStream]：输入一个参数，产生0、1或者多个输出，这个多用于拆分操作
filter[DataStream --> DataStream]：结算每个元素的布尔值，并返回为true的元素
keyBy[DataSteam --> DataStream]：逻辑地将一个流拆分成不相交的分区，每个分区包含具有相同key的元素，在内部以hash的形式实现的。以key来分组。注意，以下类型无法作为key：
- 1. POJO类，且没有实现hashCode函数
- 2. 任意形式的数组类型
reduce[KeyedStream --> DataStream]：滚动和并操作，合并当前元素和上一次合并的元素结果。
fold[KeyedStream --> DataStream]：用一个初始的一个值，与其每个元素进行滚动合并操作。
aggregation[KeyedStream --> DataStream]：分组流数据的滚动聚合操作：min和minBy的区别是min返回的是一个最小值，而minBy返回的是其字段中包含的最小值的元素（同样元原理适用于max和maxBy）
window[Key