
离线数仓
文章平均质量分 96
离线数仓:Hadoop,Hive,Flume,Zookeeper,Kafka
墨尔本、晴
软件测试工程师
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
[离线数仓] 总结三、Hive数仓DIM层开发
DIM层设计要点:(1)DIM层的设计依据是维度建模理论,该层存储维度模型的维度表。(2)DIM层的数据存储格式为orc列式存储+snappy压缩。(3)DIM层表名的命名规范为dim_表名_全量表或者拉链表标识(full/zip)。原创 2025-01-10 23:11:31 · 1007 阅读 · 0 评论 -
[离线数仓] 总结二、Hive数仓分层开发
- ODS 层 Operate Data Store--存储从MySQL业务数据库和日志服务器的日志文件中采集到的数据-- 日志数据:JSON格式-- 业务数据:-- 全量:DataX,TSV格式,"fieldDelimiter": "\t",-- 增量:Maxwell,JSON格式-- 汇总数据:希望用最少得资源存储更多的数据。原创 2025-01-08 22:04:35 · 1043 阅读 · 0 评论 -
[离线数仓] 总结一、数据采集
服务名称子服务服务器hadoop111服务器hadoop112服务器hadoop113HDFSNameNode√DataNode√√SecondaryNameNode√YarnResourcemanager√NodeManager√√ZookeeperZookeeper Server√√√Flume(采集日志)Flume√KafkaKafka√√√Flume(Kafka日志)Flume√Flume(Kafka业务)Flume√Hive√MySQLMySQL√DataX√Spark√√√DolphinSche原创 2024-12-29 00:14:52 · 951 阅读 · 0 评论 -
[数仓]十六、数仓同步工具(DataX)-- 离线(v6.0)
通常情况下,离线数据同步任务需要每日定时重复执行,故HDFS上的目标路径通常会包含一层日期,以对每日同步的数据加以区分,也就是说每日同步数据的目标路径不是固定不变的,因此DataX配置文件中HDFS Writer的path参数的值应该是动态的。为实现这一效果,就需要使用DataX传参的功能。DataX的使用十分简单,用户只需根据自己同步数据的数据源和目的地选择相应的Reader和Writer,并将Reader和Writer的信息配置在一个json文件中,然后执行如下命令提交数据同步任务即可。原创 2024-08-12 02:37:03 · 890 阅读 · 0 评论 -
[数仓]十五、数仓数据同步策略 -- 离线(v6.0-3)
按照规划,该Flume需将Kafka中topic_log的数据发往HDFS。并且对每天产生的用户行为日志进行区分,将不同天的数据发往HDFS不同天的路径。此处选择KafkaSource、FileChannel、HDFSSink。原创 2024-08-12 02:06:47 · 863 阅读 · 0 评论 -
[数仓]十四、数仓同步工具(Maxwell)-- 离线(v6.0)
Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控MySQL数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。原创 2024-08-12 01:35:48 · 967 阅读 · 0 评论 -
[数仓]十三、离线数仓(数据质量管理)
本文使用Python和Shell脚本实现数据质量监控的各项功能,故需先搭建相应的开发环境,Python开发可选择IDEA(需安装Python插件),或PyCharm等工具,本文使用IDEA作为开发工具。(2)点击“Plugins”,点击右上角的“Marketplace”,然后在搜索框中输入“python”,在搜索结果列表中找到Python插件,点击“Install”,安装插件。(1)点击Idea中的“File”,在下列列表中点击“New”,在右侧弹出的列表中点击“Project…原创 2024-07-13 01:57:56 · 857 阅读 · 0 评论 -
[数仓]十二、离线数仓(Atlas元数据管理)
发现此时并未出现期望的血缘依赖,原因是Atlas是根据Hive所执行的SQL语句获取表与表之间以及字段与字段之间的依赖关系的,例如执行insert into table_a select * from table_b语句,Atlas就能获取table_a与table_b之间的依赖关系。本文只包含Solr和Atlas的安装指南,其余所依赖服务的安装请参考前边章节。2.修改Hive配置文件,在/opt/module/hive/conf/hive-site.xml文件中增加以下参数,配置Hive Hook。原创 2024-07-13 01:33:49 · 1019 阅读 · 0 评论 -
[数仓]十一、离线数仓(Ranger权限管理)
Apache Ranger是一个Hadoop平台上的全方位数据安全管理框架,它可以为整个Hadoop生态系统提供全面的安全管理。随着企业业务的拓展,企业可能在多用户环境中运行多个工作任务,这就需要一个可以对安全策略进行集中管理,配置和监控用户访问的框架。Ranger由此产生!Ranger的官网:https://ranger.apache.org/原创 2024-07-09 23:55:18 · 977 阅读 · 0 评论 -
[数仓]十、离线数仓(安全集群实战)
1.新建/opt/module/presto/etc/access-control.properties配置文件,内容如下。1.在/opt/module/presto/etc/catalog/hive.properties中增加以下参数。2.分发/opt/module/presto/etc/catalog/hive.properties文件。2. 新建/opt/module/presto/etc/rules.json文件,内容如下。原创 2024-07-09 23:33:45 · 1354 阅读 · 0 评论 -
[数仓]九、离线数仓(Kerberos用户认证)
为执行创建主体的语句,需登录Kerberos 数据库客户端,登录之前需先使用Kerberos的管理员用户进行认证,执行以下命令并根据提示输入密码。3)Rrincipal:Kerberos所管理的一个用户或者一个服务,可以理解为Kerberos中保存的一个账号,其格式通常如下:primary。为服务创建的主体,需要通过密钥文件keytab文件进行认证,故需为各服务准备一个安全的路径用来存储keytab文件。为Hadoop开启Kerberos,需为不同服务准备不同的用户,启动服务时需要使用相应的用户。原创 2024-07-09 00:40:38 · 693 阅读 · 0 评论 -
[数仓]八、离线数仓(zabbix集群监控)
Zabbix使用灵活的通知机制,允许用户为几乎任何事件配置基于邮件的告警。基于已存储的数据,Zabbix提供了出色的报告和数据可视化功能。1.为方便展示效果,在Zabbix中为hadoop102主机应用一个Zabbix内置的Linux系统监控模板。2)点击模板,搜索linux,并选择Template OS Linux by Zabbix agent。一个被用于定义问题阈值和“评估”监控项接收到的数据的逻辑表达式。一个对事件做出反应的预定义的操作,比如邮件通知。你想要接收的主机的特定数据,一个度量数据。原创 2024-07-08 23:24:53 · 1125 阅读 · 0 评论 -
[数仓]七、离线数仓(Presto&Kylin即席查询)
第1章 Presto1.1 Presto简介1.1.1Presto概念1.1.2 Presto架构原创 2024-07-08 07:45:49 · 358 阅读 · 0 评论 -
[数仓]六、离线数仓(Superset可视化报表)
conda是一个开源的包、环境管理器,可以用于在同一个机器上安装不同Python版本的软件包及其依赖,并能够在不同的Python环境之间切换,Anaconda包括Conda、Python以及一大堆安装好的工具包,比如:numpy、pandas等,Miniconda包括Conda、Python。Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图表展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。安装Superset之前,需安装以下所需依赖。原创 2024-07-08 01:35:49 · 1018 阅读 · 0 评论 -
[数仓]四、离线数仓(Hive数仓系统-续)
此处要求统计新增留存率,新增留存率具体是指留存用户数与新增用户数的比值,例如2020-06-14新增100个用户,1日之后(2020-06-15)这100人中有80个人活跃了,那2020-06-14的1日留存数则为80,2020-06-14的1日留存率则为80%。该需求要求统计最近30日发布的所有优惠券的领用情况和补贴率,补贴率是指,优惠金额与使用优惠券的订单的原价金额的比值。该需求要求统计最近30日发布的所有活动的参与情况和补贴率,补贴率是指,优惠金额与参与活动的订单原价金额的比值。原创 2024-07-08 01:16:25 · 679 阅读 · 0 评论 -
[数仓]五、离线数仓(Azkaban部署)
1)将azkaban-db-3.84.4.tar.gz,azkaban-exec-server-3.84.4.tar.gz,azkaban-web-server-3.84.4.tar.gz上传到hadoop102的/opt/software路径。3)解压azkaban-db-3.84.4.tar.gz、 azkaban-exec-server-3.84.4.tar.gz和azkaban-web-server-3.84.4.tar.gz到/opt/module/azkaban目录下。原创 2024-07-08 00:59:53 · 697 阅读 · 0 评论 -
[数仓]三、离线数仓(Hive数仓系统)
Hive引擎包括:默认MR、tez、sparkHive on Spark:Hive既作为存储元数据又负责SQL的解析优化,语法是HQL语法,执行引擎变成了Spark,Spark负责采用RDD执行。Spark on Hive: Hive只作为存储元数据,Spark负责SQL解析优化,语法是SparkSQL语法,Spark负责采用RDD执行。原创 2024-07-08 00:02:39 · 1441 阅读 · 0 评论 -
[数仓]二、离线数仓(业务数据采集)
电商的业务流程可以以一个普通用户的浏览足迹为例进行说明,用户点开电商首页开始浏览,可能会通过分类查询也可能通过全文搜索寻找自己中意的商品,这些商品无疑都是存储在后台的管理系统中的。当用户寻找到自己中意的商品,可能会想要购买,将商品添加到购物车后发现需要登录,登录后对商品进行结算,这时候购物车的管理和商品订单信息的生成都会对业务数据库产生影响,会生成相应的订单数据和支付数据。订单正式生成之后,还会对订单进行跟踪处理,直到订单全部完成。原创 2024-07-07 18:03:17 · 1276 阅读 · 0 评论 -
[数仓]一、离线数仓(日志数据采集)
G:\Bigdata\Projects\电商数仓4.0数据仓库( Data Warehouse ),是为企业制定决策,提供数据支持的。可以帮助企业,改进业务流程、提高产品质量等。和等就是各行业在处理事务过程中产生的数据。比如用户在电商网站中登录、下单、支付等过程中,需要和网站后台数据库进行增删改查交互,产生的数据就是业务数据业务数据通常存储在MySQL、Oracle等数据库中。:用户在使用产品过程中,通过埋点收集与客户端产品交互过程中产生的数据,并发往日志服务器进行保存。原创 2024-07-06 02:09:50 · 1853 阅读 · 0 评论