lwqhp
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据架构之--Kappa架构
一、什么是Kappa架构Kappa 架构是由 LinkedIn 的前首席工程师杰伊·克雷普斯(Jay Kreps)提出的一种架构思想。克雷普斯是几个著名开源项目(包括 Apache Kafka 和 Apache Samza 这样的流处理系统)的作者之一。Kreps 提出了一个改进 Lambda 架构的观点: 通过改进 Lambda 架构中的Speed Layer,使它既能够进行实时数据处理,同时也有能力在业务逻辑更新的情况下重新处理以前处理过的历史数据 Kappa架构的原理是:在Lambd原创 2022-03-08 19:08:32 · 15949 阅读 · 0 评论 -
大数据架构之-- Lambda架构
一、什么是Lambda架构Lambda架构由Storm 的作者 [Nathan Marz] 提出, 根据维基百科的定义,Lambda 架构的设计是为了在处理大规模数据时,同时发挥流处理和批处理的优势。通过批处理提供全面、准确的数据,通过流处理提供低延迟的数据,从而达到平衡延迟、吞吐量和容错性的目的。为了满足下游的即席查询,批处理和流处理的结果会进行合并。二、Lambda架构组成Lambda 架构包含三层,Batch Layer、Speed Layer 和 Serving Layer。架.原创 2021-12-14 18:54:56 · 20855 阅读 · 0 评论 -
《Flink应用实战》(五)--流合并-Connect算子
只能用于连接两个DataStream流,不能用于DataSet;连接的两个数据流数据类型可以不同。连接后两个流可以使用不同的处理方法,两个流可以共享状态。连接的结果为一个ConnectedStream流。连接的两个流可以是DataStream或者是BroadcastStream(广播数据流)。连接两个DataStream流,返回一个新的ConnectedStream}}............原创 2022-07-25 10:56:33 · 3526 阅读 · 1 评论 -
《Flink应用实战》(四)--合并流-IntervalJoin算子
Flink 中的两个流要实现 Join 操作,必须满足以下两点:流需要能够等待,即:两个流必须在同一个窗口中;双流等值 Join,即:两个流中,必须有一个字段相等才能够 Join 上。Flink 中支持双流 Join 的算子目前已知有5种,如下::union 支持双流 Join,也支持多流 Join。多个流类型必须一致;:connector 支持双流 Join,两个流的类型可以不一致;:该方法只支持 inner join,即:相同窗口下,两个流中,Key都存在且相同时才会关联成功;:同样能够实现双流 Joi原创 2022-06-14 17:07:44 · 1658 阅读 · 0 评论 -
《Flink应用实战》(三)--合并流-Union算子
1 用于DataStream时,返回是Datastream;用于DataSet时,返回是DataSet;2 可以多个流一起合并(stream1.union(stream2,stream3,stream4)),合并结果是一个新Datastream;只能2个DataSet一起合并,合并结果是一个新DataSet3 无论是合并Datastream还是合并DataSet,都不去重,2个源的消息或记录都保存。4 不可以union 2个类型不同的流或union 2个类型不同的数据集............原创 2022-06-04 11:10:00 · 1900 阅读 · 1 评论 -
《Flink应用实战》(二)--窗口函数聚合计算
窗口计算是流式计算中常用的数据计算方式之一,通过按照固定时间或长度将数据流切分成不同的窗口,再对数据进行相应的聚合操作,得到一定时间范围内的统计结果,例如统计最近5分钟内某网站的点击数,此时,点击数据在不断产生,通过5分钟窗口将数据限定在固定时间范围内,就可以对该范围内的有界数据执行聚合,得到最近5分钟的网站点击数。2、窗口计算函数分类• Flink提供了四种类型的窗口计算函数,分别是ReduceFunction、AggregateFunction、Fol...原创 2022-05-23 10:08:23 · 2672 阅读 · 0 评论 -
《Flink应用实战》(一)--广播状态
《Flink一起学》之广播状态的使用原创 2022-05-16 17:37:39 · 2831 阅读 · 1 评论