自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 正则表达式

是一种用于描述、匹配、检索和替换符合某些规则的文本字符串的工具。它像是一种简洁的“模式语言”,可以快速定位和操作大量文本中的特定内容。简而言之,正则表达式就是用特定的语法来描述,然后用这个规则去匹配、查找、筛选实际的文本内容。

2025-07-24 16:45:55 1121

原创 Flink-Hadoop实战项目

摘要:本项目构建了一个基于Apache Flink的铁路票务数据处理平台,实现HDFS文件到Hive数据仓库的实时转换。系统包含两个核心作业:1)文件处理作业定时扫描HDFS目录,解析票务和乘客信息文件并写入Parquet格式的Hive表;2)数据合并作业每小时关联两张源表生成完整车次信息。技术栈采用Flink 1.18.1流处理引擎,结合Kerberos认证保障安全,Quartz实现调度管理。系统架构分为文件监控、流处理和存储三层,通过批量写入和缓冲区优化提升性能,支持千万级数据处理,延迟控制在5分钟内。

2025-07-22 10:35:46 1639

原创 Flink连接hive如何进行kerberos认证

Flink 连接 Hive 并通过 Kerberos 认证,需要正确配置安全环境、依赖项和认证文件。

2025-07-02 16:36:07 357

原创 Flink如何观察性能问题及如何分析

本文介绍了通过分析Flink TaskManager线程栈定位性能瓶颈的方法。主要步骤包括:1) 通过Flink WebUI观察JobGraph和指标参数;2) 检查Checkpoints状态;3) 获取TaskManager线程栈(jstack);4) 搜索关键Operator线程;5) 分析线程状态和调用栈。

2025-07-01 16:51:35 582

原创 Flink-Kafka-Redis-PostgreSQL开发实例

本项目基于Apache Flink构建流式数据处理系统,实现从Kafka消费JSON数据流(包含name和cnt字段),通过Redis进行全局计数更新,并利用1分钟滚动窗口聚合数据后写入PostgreSQL。系统包含核心组件:JSON解析转换器、Redis计数处理器和PostgreSQL自定义Sink,采用Flink的ProcessingTime窗口触发机制。项目结构清晰,包含配置管理、模型定义和业务逻辑实现,通过Maven打包后可直接部署到Flink集群运行,实现了实时数据处理的完整闭环。

2025-07-01 16:16:25 417

原创 Flink窗口函数测试

本文介绍了基于Apache Flink实现的6种典型窗口函数组合模式,用于实时事件流处理。系统从Kafka消费事件数据,按不同窗口策略聚合后写入Redis。窗口类型包括:固定时间滚动窗口(TumblingWindow)、滑动窗口(SlidingWindow)、会话窗口(SessionWindow)、计数窗口(CountWindow)和全局窗口(GlobalWindow),分别与ReduceFunction、AggregateFunction和ProcessWindowFunction组合使用。

2025-07-01 16:01:20 1099 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除