
数据研发
文章平均质量分 72
锵锵锵锵~蒋
小蒋,自己写的博客还能看懂吗>_<
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
实时数据开发|Flink状态类型
根据数据集==是否根据Key进行分区==,将状态分为==Keyed State== 和==OperatorState(Non-keyed )State==两种类型。原创 2024-12-10 23:52:42 · 509 阅读 · 0 评论 -
实时数据开发|Flink延时数据处理
其代表允许延时的最大时间,Flink窗口算过程中会将 Window的 Endtime加上该时间,作为窗口最后被释放的结束时间§,当接人的数据中 EventTime未超过该时间§,但 Watermak 已经超过 Window 的 EndTim时直接触发窗口计算。相反,如果事件时间超过了最大延时时间§,则只能对数据进行丢弃处理。通常情况下用户虽然希望对迟到的数据进行窗口计算,但并不想将结果混入正常的计算流程中,例如用户大屏数据展示系统,即使正常的窗口中没有将迟到的数据进行统计,但为了。原创 2024-12-06 23:43:45 · 357 阅读 · 0 评论 -
实时数据开发|Flink状态计算 有状态VS无状态,区别和优劣
和状态计算不同的是,无状态计算不会存储计算过程中产生的结果,也不会将结果用于下一步计算过程中,程序只会在**当前的计算流程**中实行计算,计算完成就输出结果,然后下一条数据接人,然后再处理。原创 2024-12-06 23:42:08 · 825 阅读 · 0 评论 -
实时数据开发|Flink异步IO--提升性能和吞吐量
异步IO可以提升性能和吞吐量,主要原因是在异步函数中可以尽可能异步并发地查询外部数据库。原创 2024-12-04 23:49:49 · 882 阅读 · 0 评论 -
实时数据开发 | Flink的数据分区策略--物理分区操作
Flink数据分区操作原创 2024-12-03 01:55:54 · 1244 阅读 · 0 评论 -
实时数据开发|Flink实现数据输出--DataSinks操作
Flink数据输出--DataSinks操作原创 2024-11-30 01:24:40 · 649 阅读 · 0 评论 -
实时数据开发|Flink如何实现不同数据源输入--DataSource模块
Flink定义DataStream API让用户灵活且高效的编写流式应用。主要分为3部分:DataSource模块,Transformation模块以及DataSink模块。1. ==DataSource模块==,主要定义了数据接入功能,将外部数据接入至flink,并将接入数据转换成对应的datastream数据集。2. ==Transformation 模块==定义了对 DataStream 数据集的各种转换操作,例如进行 map、filter、windows等操作。3. 最后,将结果数据通过==D原创 2024-11-29 01:43:38 · 889 阅读 · 0 评论 -
实时数据开发 | checkpoints监控和调优
checkpoints监控和调优原创 2024-11-27 23:21:46 · 497 阅读 · 0 评论 -
实时数据开发 | Flink反压机制原因、影响及解决方案
实时数据开发 | Flink反压机制原因、影响及解决方案原创 2024-11-27 00:48:05 · 1066 阅读 · 0 评论 -
实时数据开发 | 一文理解Flink窗口机制
Flink引擎本质上是流式引擎,认为批处理是流处理的一个特例。因此,通过窗口将流数据划分为有限大小的集合,使得在这些有界的数据集上可以进行批处理风格的计算。通过配置窗口的参数,如==长度==和==滑动间隔==,可以精确地控制数据的聚合和计算频率,以满足各种业务需求。原创 2024-11-26 00:38:05 · 705 阅读 · 0 评论 -
实时数据开发|简单理解Flink流计算中解决乱序的机制--水位线
一分钟看懂Flink水平线机制原创 2024-11-23 02:01:40 · 780 阅读 · 0 评论 -
实时数据开发 | 怎么通俗理解Flink容错机制,提到的checkpoint、barrier、Savepoint、sink都是什么
今天学Flink的关键技术--容错机制,用一些通俗的比喻来讲这个复杂的过程。原创 2024-11-22 00:19:37 · 1490 阅读 · 0 评论 -
实时数据研发|Flink关键概念,什么是无界、有界数据集,流、批?
Flink的关键概念,入门必备原创 2024-11-20 23:09:00 · 520 阅读 · 0 评论 -
实时数据研发 | Flink技术栈
上次的内容讲过流批一体,Flink就是在一套框架中同时支持批处理与流处理的一个计算平台(Spark也可以)。简单写一下Flink的技术栈。原创 2024-11-19 23:41:29 · 763 阅读 · 0 评论 -
数据研发基础 | 数仓中需要主键吗
主键是传统关系型系统的产物,因为数仓的特性,需要酌情使用主键。应用中需要在便利性和性能、存储间找到一个平衡。通过合理设计表结构、选择合适的约束条件和优化性能,可以在不使用主键的情况下,确保数据的唯一性和完整性。原创 2024-11-18 23:56:35 · 595 阅读 · 0 评论 -
数据研发基础 | ODS表设计方法
数据仓库中ODS表的设计方法,不同类型存储方式的使用场景原创 2024-11-14 23:28:22 · 422 阅读 · 0 评论 -
数据研发基础| 什么是数据漂移
数仓ODS中发生的数据漂移现象的原因、场景和解决方案。原创 2024-11-15 23:38:21 · 612 阅读 · 0 评论 -
数据研发基础 | 什么是流批一体
流批一体的概念是可能出现在大厂的面试题中的,可是就算大厂实习也有可能没机会实操这样的高级操作。不过学一点概念,面试多少是能说上一两句的。大致就是希望一套代码能同时在批处理和流处理中运行(同时做离线计算和实时计算)。原创 2024-11-17 00:10:52 · 1135 阅读 · 0 评论 -
Hive 常见数据倾斜场景及解决方案(Map\Join\Reduce端)
Hive 中常见的数据倾斜场景及解决方法原创 2023-09-27 23:09:08 · 1031 阅读 · 0 评论 -
【黑马2023大数据实战教程】VMWare虚拟机部署HDFS集群详细过程
【黑马2023大数据实战教程】VMWare虚拟机部署HDFS集群详细过程:包括1.配置workers:2.配置hadoop-env.sh文件3.配置core-site.xml文件4.配置hdfs-site.xml文件准备数据目录分发Hadoop文件夹配置环境变量授权为hadoop用户格式化文件系统错误排查方法!!原创 2023-04-19 21:19:11 · 3488 阅读 · 1 评论 -
HDFS集群部署成功但网页无法打开如何解决(显示配置通过浏览器访问hdfs的端口)
HDFS集群部署成功(3台虚拟机)但是网页端无法打开,通过显示指定端口解决!!原创 2023-04-19 23:36:36 · 8727 阅读 · 1 评论 -
【黑马2023大数据实战教程】使用3台虚拟机搭建大数据集群详细步骤
2023新版黑马程序员大数据教程中的集群配置步骤记录原创 2023-04-17 21:54:45 · 2276 阅读 · 0 评论 -
操作HDFS文件系统常用命令(启停、创建、查看、上传、下载、追加、删除.etc)
操作HDFS文件系统常用的命令行原创 2023-04-22 10:15:02 · 2028 阅读 · 2 评论 -
窗口函数-分组排序:row_number()、rank() 、dense_rank()、ntile()
select ROW_NUMBER()over(order by name) as 排序,* from temp— 排序,即使值一样,也不会重复排序。例如1,2,3,4,5select RANK()over(order by name) as 排序,* from temp— 排序,值一样,就重复排序,有间隙。例如1,1,3,4select DENSE_RANK()over(order by name) as 排序,* from temp— 排序,值一样,就重复排序,没有间隙。原创 2023-09-04 16:22:11 · 1182 阅读 · 0 评论 -
两表union 如何保证group by 字段唯一
当要计算的指标可能来源多个表时,可能会使用到union all把不同的表中计算的指标合起来。写法一:group by之后union all ,之后再次group by保证分组字段的唯一。Union:对两个结果集进行并集操作,不包括重复行,同时进行默认规则的排序;写法二:开始不分组,将查到的分组字段union all 之后group by。Union All:对两个结果集进行并集操作,包括重复行,不进行排序;另外,回顾union和union all的区别:union会自动。原创 2023-09-04 15:21:17 · 2082 阅读 · 0 评论 -
数仓中的维度、度量、指标、事实、属性几个概念如何区分?有何异同?
数仓中维度、指标、度量等概念的区分原创 2023-08-31 11:39:51 · 3745 阅读 · 0 评论 -
数仓数据建模中的概念总结(数据域、主题域、总线矩阵、指标...)
概念归纳业务分类:业务板块是某一大类业务的指标和维度的集合,如电商,文 娱。数据域:数据域是指一个或多个业务过程或者维度的集合,如交易域, 日志域。业务过程:业务过程指企业的业务活动事件,如下单,支付。数据集市:面向某个应用场景或者产品的数据组织,一般会依赖数据 公共层。主题域:将数据集市按照分析视角进行切分,比如在电商行业,通常分 为会员、交易、商品等。维度:维度是用于分析数据的一个角度,一方面对维度进行可控管理, 另一方面指导维度表的设计,如地理维度,时间维度。维度属性:维度属性隶属于一原创 2023-08-31 11:17:53 · 3166 阅读 · 1 评论 -
数仓建模之维度表&指标表
对数仓中的维度&指标进行解释原创 2023-08-31 10:57:24 · 1276 阅读 · 0 评论 -
数仓中怎么做模型设计--关于分层建模(结合阿里OneData规范)
结合阿里OneData规范,对数仓的维度建模方法进行整理,关于分层建模的一些注意点。原创 2023-07-27 19:12:47 · 654 阅读 · 0 评论