Flink 大数据学习详情

OutRoading

已于 2024-03-07 17:55:49 修改

阅读量1.1k

点赞数 7

CC 4.0 BY-SA版权

文章标签： flink 大数据

于 2024-03-06 17:28:15 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/OutRoading/article/details/136505939

参考视频：

尚硅谷大数据Flink1.17实战教程从入门到精通_哔哩哔哩_bilibili

核心目标：

数据流上的有状态的计算

具体说明： Apache Flink是一个框架和 分布式处理引擎，用于对 无界（eg：kafka） 和 有界（eg：文本） 数据流进行有状态计算

有状态：存储中间的结果或者计算结果，保存在flink内部(内存/RockSDB)，定期存储到磁盘

状态在内存中：速度快，但可靠性差

状态在分布式系统中：速度慢，但可靠性高

特点：

高吞吐和低延迟：

每秒处理数百万个事件，毫秒级延迟

结果的准确性：

Flink提供了事件时间（event-time）和处理时间（processing-time）语义。对于乱序事件流，事件时间语义仍然能提供一致且准确的结果

精确一次(exactly-once)的状态一致性保证

可以连接到最常用的存储系统：

Kafka，Hive，JDBC，HDFS，Redis等

高可用：

本身高可用的设置，加上与 K8s，YARN和Mesos的紧密集成，再加上从故障中快速恢复和动态扩展任务的能力，Flink能做到以极少的停机时间7*24全天候运行

Flink和SparkStreaming比较

本质：spark streaming是批处理（RDD模型），flink是流处理

	Flink	Streaming
计算模型	流计算	微批处理
时间语义	事件时间，处理时间	处理时间
窗口	多，灵活	少，不灵活（窗口必须是批次的整数倍）
状态	有	无
流式sql	有	无

ps：

Flink提供了三种时间语义，以满足不同计算场景的需求：处理时间，事件时间和注入时间。

处理时间(Processing Time)：一种直观的时间语义，表示数据进入算子并开始处理的实际时间点。
事件时间(Event Time)：表示事件实际发生的时间，通常在消息的时间戳字段中找到。由于可能会有数据乱序的问题，但它能保证精确度高的计算场景。
注入时间(Ingestion Time)：介于处理时间和事件时间之间的折中选择，代表数据进入Flink处理系统的时间。

Flink分层API

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。