
数据仓库
文章平均质量分 70
离线数据仓库建设及理论
大数据同盟会
大数据同盟会致力传播大数据技术,帮助更多需要帮助的人,如果您也感兴趣,请扫描下方二维码 ,加入我们吧
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
大数据之Drools安装使用
一、Drools安装1、导入相关依赖<dependency> <groupId>org.drools</groupId> <artifactId>drools-compiler</artifactId> <version>7.23.0.Final</version></dependency><dependency> <groupId>org.proj原创 2022-04-07 21:36:15 · 3882 阅读 · 0 评论 -
大数据之实时数仓建设(四)
Table & SQL API 是⼀种关系型 API,用户可以像操作 mysql 数据库表一样的操作数据,而不需要写java 代码完成 Flink Function,更不需要手工的优化 java 代码调优。BatchTableEnvironment (离线批处理Table API)ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();BatchTableEnvironment tEnv = Batch原创 2022-04-05 23:01:23 · 4875 阅读 · 0 评论 -
大数据之Canal安装与配置
canal是用java开发的基于数据库增量日志解析,提供增量数据订阅&消费的中间件。目前,canal主要支持了MySQL的binlog解析,解析完成后才利用canal client 用来处理获得的相关数据。canal可以记录mysql的binlog的偏移量,对mysql侵入性比较小,支持灵活配置,可以配置输出的存储系统。一、Canal工作原理首先了解一下mysql主备复制原理:(1)master主库将改变记录,发送到二进制文件(binary log)中(2)slave从库向mysql M原创 2022-03-31 15:54:35 · 5991 阅读 · 0 评论 -
大数据之实时数仓建设(三)
业务数据库的实时分析:业务数据库就是MySQL(集群),假设直接在业务数据库中写SQL进行查询,如果复杂的查询(多维度聚合、join、并且数据流比较大)业务数据库的性能就会下降。甚至不能完成正常的业务功能(不能完成普通的业务数据的查询、插入、修改或是性能下降)...原创 2022-03-31 15:11:31 · 4645 阅读 · 0 评论 -
大数据之实时数仓建设(二)
如果数据量大,维度多,用keyBy并不方便,建议写到外部实时数仓里,Clickhouse擅长实时查询,flink擅长实时处理。一、多维度复杂统计(使用Clickhouse)使用是clickhouse的ReplacingMergeTree,可以将同一个分区中,ID相同的数据进行merge,可以保留最新的数据,可以使用这个特点实现Flink + Clickhouse(勉强)实现数据一致性。存在的问题:写入到clickhouse中的数据不能立即merge,需要手动optimize或后台自动合并。解决方案:原创 2022-03-26 17:29:15 · 5269 阅读 · 0 评论 -
大数据之OpenResty安装使用
一、OpenResty介绍OpenResty 是一个基于 Nginx与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。OpenResty通过汇聚各种设计精良的 Nginx模块,从而将 Nginx有效地变成一个强大的通用 Web 应用平台。,快速构造出足以胜任 10K 乃至 1000K 以上单机并发连接的高性能 Web 应用系统。简单的说:OpenResty = N原创 2022-03-20 22:32:07 · 6956 阅读 · 0 评论 -
nginx-kafka的安装使用
Nginx (engine x) 是一个高性能的负载均衡和反向代理web服务器,同时也提供了IMAP/POP3/SMTP服务。一、nginx的安装1、下载linux版本安装包,解压2、安装C语言编译器3、安装依赖库yum install -y pcre-devel openssl-devel gcc curl4、重新编译这样,nginx就安装到了 /usr/local/nginx 下5、启动nginx关闭防火墙,访问nginx二、nginx-kafka插件安装使用该插件,原创 2018-05-06 19:16:37 · 1298 阅读 · 0 评论 -
大数据之实时数仓建设(一)
一、数据采集服务原创 2022-03-20 16:50:11 · 5577 阅读 · 0 评论 -
大数据之游戏项目
游戏项目更多java、大数据学习面试资料,请扫码关注我的公众号:原创 2021-05-29 10:09:24 · 1220 阅读 · 0 评论 -
大数据之数据仓库建设(四)
一、用户画像:就是为所有用户,生成各类“标签”,比如消费等级(A,B,C),活跃等级(A,B,C), 流失风险等级(A,B,C),品类偏好 TOP3,活跃事实(月登陆次数,月访问时长)更多java、大数据学习面试资料,请扫码关注我的公众号:...原创 2021-08-29 22:13:00 · 3475 阅读 · 0 评论 -
大数据之Atlas元数据管理
背景:公司做数据仓库时,管理自己多张表时,需要使用元数据管理系统进行管理。更多java、大数据学习面试资料,请扫码关注我的公众号:原创 2021-08-22 19:07:16 · 6647 阅读 · 0 评论 -
大数据之数据仓库建设(三)
数据仓库理论一和二,主要讲流量域;数据仓库理论三和四,主要讲业务域,即业务库里的数据。原创 2021-08-11 22:46:16 · 3085 阅读 · 0 评论 -
大数据之数据模型
一、星型摸型它是由一个事实表和一组维表组成,每个维表都有一个维作为主键,所有这些维的主键组成事实表的主键。二、雪花模型当有一个或多个维表没有直接连接到事实表上,而是通过其他维表连接到事实表上时,其图解像多个雪花连接在一起,故而称为雪花模型。三、数据仓库数据仓库主要用于数据挖掘和数据分析,辅助领导做决策,(从事业务建模工资比较高)。四、数据仓库和数据库区别1、数据仓库是集成的:将数据原来分散的数据库数据抽取处理的;2、数据仓库的数据一般不需要修改的;3、仓库里的数据是随着时间变化而变化的。原创 2020-08-23 00:18:33 · 3385 阅读 · 0 评论 -
大数据之数据仓库建设(一)
一、数据仓库:一个面向分析、反映历史变化的的数据仓库;中小公司数据量:一天1000万条数据,17G;一个月500G,一年6T数据量;数据仓库技术:1、传统数仓一般是采用关系型数据库;2、大数据领域中:使用HDFS做存储;使用spark 或mapreduce做运算、使用spark sql或者hive做sql引擎;impala既可以做运算又可是做sql引擎;click house即可以做存储,又可以做运算、sql引擎;分层设计:数据仓库中的数据表,往往是分层管理、分层计算的:ODS 层:操原创 2021-07-04 17:43:10 · 3017 阅读 · 3 评论 -
大数据之数据仓库建设(二)
四、DWS 层开发原创 2021-07-19 23:40:25 · 2436 阅读 · 2 评论