
CDH数仓生态
文章平均质量分 74
....
研发咨询顾问
专注全栈开发和项目管理,诚接商务\业务合作,及问题难点解答和远程协助! 可私信或留言给作者,消息会在6小时内回复哦 (每篇文章末尾有作者名片,可添加联系,秒通过)
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
Kerberos(krb5)认证管理和Sentry权限管理
第1章 安全之Kerberos认证管理... 11.1 Kerberos概述... 11.1.1 什么是Kerberos. 11.1.2 Kerberos概念... 11.1.3 Kerberos认证原理... 11.2 Kerberos安装... 21.2.1 server节点安装kerberos相关软件... 21.2.2 client节点安装... 21.2.3 配置kerberos. 21.2.4 生成Kerberos数据库... 31.2.5 赋予Kerberos管理员所有权限... 41.2.6原创 2023-05-22 11:05:32 · 500 阅读 · 0 评论 -
CDH集群测试和管理
下面的内容比较多,由于文章的字数有限制,所以只能截图了,需要下面文档的,可以在下方评论,或私信我,免费分享文件资料。原创 2023-05-22 11:03:47 · 312 阅读 · 2 评论 -
CDH节点增减和卸载
第1章 集群管理之节点的添加和删除... 11.1 准备新节点... 11.2 添加节点向导... 31.3 删除节点... 6第2章 集群管理之卸载CDH.. 82.1 停止所有服务... 82.2 停用并移除Parcels. 92.3 删除集群... 92.4 卸载Cloudera Manager Server 102.5 卸载Cloudera Manager Agent(所有Agent节点)... 102.6 移除CM数据(所有节点)... 102.7 删除用户数据(所有节点)... 102.8 停止原创 2023-05-22 11:02:04 · 366 阅读 · 0 评论 -
CDH云服务器开关机
特别注意:有些云服务器 每次启动后 /etc/hsots文件会添加一个本地的ip地址,造成域名重复,所以启动后,第一件事情,检查下这个文件。选择关机不收费,其实会收取磁盘的钱,但ip地址,会释放条,下次启动的话,公有IP可能会变化,到时候本地的windo要改动下。需要注意的是启动顺序和关闭顺序,确保没有其它节点没依然该节点,该节点就可以进行开和关。需要注意的是启动顺序和关闭顺序,确保没有其它节点没依然该节点,该节点就可以进行开和关。(1)启动服务节点:hadoop102。(3)查看Server启动日志。原创 2023-05-22 10:56:29 · 446 阅读 · 0 评论 -
CM(Cloudera Manager)安装导向CDH
(Hadoop用户体验),直白来说就一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。,比如在HDFS页面删除不了文件的,连上传文件也要先从windows上传linux,在上传到hdfs。注意HUE只能在HUE的webUI是管理员权限,在其他的webUI就没有管理员权限(且必须是当前登入用户的路径))选择要安装的CDH组件,选择自定义安装。原创 2023-05-22 10:54:34 · 245 阅读 · 0 评论 -
CM(Cloudera Manager)部署
用SecureCRT将jdk-8u144-linux-x64.tar.gz上传至hadoop102,并解压到/usr/java目录下。注意 必要在该目录下启动,如果你切换到其它的目录话,虽然这个命令可以使用,但访问的web页面显示的是当前目录。)输入新密码(至少12个字符,至少包含一个大写字母有,一个小写字母,一个数字,一个特殊字符)需要注意的是启动顺序和关闭顺序,确保没有其它节点没依然该节点,该节点就可以进行开和关。需要注意的是启动顺序和关闭顺序,确保没有其它节点没依然该节点,该节点就可以进行开和关。原创 2023-05-22 08:51:15 · 326 阅读 · 0 评论 -
CM(Cloudera Manager)简介
CM是管理CDH的,CDH是CM的安装导向;首先,这里先简单介绍以下,CDH集群和hadoop集群类似,而CM是管理CDH的图形化界面。)Management Service: 由一组执行各种监控,警报和报告功能角色的服务。)Clients:是用于与服务器进行交互的按口(API和IAdmin Console ))Server: 负责软件安装、配置,启动和停止服务,管理服务运行的群集。负责启动和停止的过程,配置,监控主机。功能的一个工具,使得安装集群从几天的时间。内,运维人员从数十人。提高集群管理的效率。原创 2023-05-22 08:27:38 · 388 阅读 · 0 评论 -
即席查询组件对比
提供Hadoop/Spark之上的SQL查询接口及多维分析(MOLAP)能力以支持超大规模数据,能在亚秒内查询巨大的Hive表;,在处理PB级别数据、毫秒级查询、数据实时处理方面,比传统的OLAP系统有了显著的性能改进。虽presto可以解析SQL,但它不是一个标准的数据库,不是MySQL、Oracle的代替品,也不能用来处理在线事务,而 apache版的数仓使用的是Druid+Presto+Kylin查询引擎,有兴趣的可以学习下。)摘要:Druid是一个快速的列式分布式的支持实时分析的。原创 2023-05-21 11:36:22 · 677 阅读 · 0 评论 -
数据仓库理论表表分类
拉链:指表和表一环扣一环,进行连接,有时间线的概念,可以常看历史的数据。[3] 新增及变化同步:存储“新增加”的数据和“变化”的数据。2)没变化的客观世界的维度(比如性别,地区,民族,政治成分,鞋子尺码)可以只。因为数据不会变化,而且数据量巨大,所以每天只同步新增数据即可,所以可以做成。,以方便的取到某个时间切片的快照数据。数据同步策略的类型包括:全量表、增量表、新增及变化表、拉链表。[2] 增量同步:存储“新增加”的数据,使用分区存储增加的。事务型事实表:比如,交易流水,操作日志,出库入库记录等。原创 2023-05-21 11:34:45 · 275 阅读 · 0 评论 -
数仓(数据仓库)分层
因为把原来一步的工作分到了多个步骤去完成,相当于把一个复杂的工作拆成了多个简单的工作,把一个大的黑盒变成了一个白盒,每一层的处理逻辑都相对简单和容易理解,这样我们比较容易保证每一个步骤的正确性,当数据发生错误的时候,往往我们只需要局部调整某个步骤即可。,通过大量的预处理来提升应用系统的用户体验(效率),因此数据仓库会存在大量冗余的数据。) 临时表数据库命名为xxx_tmp,备份数据数据库命名为xxx_bak;,如果源业务系统的业务规则发生变化将会影响整个数据清洗过程,工。)ODS层命名为ods。原创 2023-05-21 11:29:44 · 180 阅读 · 0 评论 -
数仓(数据仓库)架构
目前,一些企业倾向建立多个数据集市,而不是一个集中的数据仓库,这时可以考虑在建立数据仓库(或数据集市)之前,先建立一个用于描述数据、服务应用集成的元数据库,做好数据仓库实施的初期支持工作,对后续开发和维护有很大的帮助。而业务元数据为管理层和业务分析人员服务,从业务角度描述数据,包括商务术语、数据仓库中有什么数据、数据的位置和数据的可用性等,帮助业务人员更好地理解数据仓库中哪些数据是可用的以及如何使用。(1)一种是以数据集为基础,每一个数据集有对应的元数据文件,每一个元数据文件包含对应数据集的元数据内容;原创 2023-05-21 11:28:44 · 1633 阅读 · 0 评论 -
数据仓库(数仓)介绍
比如现在的网购,淘宝,京东等等。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻划各个分析对象所涉及的企业的各项数据,以及数据之间的联系。这个阶段,主要是按照一定的数据模型,对整个企业的数据进行采集,整理,并且能够按照各个业务部门的需要,提供跨部门的,完全一致的业务报表数据,能够通过数据仓库生成对业务具有指导性的数据,同时,为领导决策提供全面的数据支持。通过数据仓库建设的发展阶段,我们能够看出,数据仓库的建设和数据集市的建设的重要区别就在于数据模型的支持。原创 2023-05-21 11:27:34 · 1780 阅读 · 0 评论