【免费】五分钟学大数据-HBase知识体系吐血总结1资源-CSDN下载

需积分: 0 100 浏览量更新于2022-08-03 收藏 1.45MB PDF 举报

**HBase 知识体系概览** HBase 是一个分布式、高性能、基于列式存储的 NoSQL 数据库，它是 Apache Hadoop 生态系统的一部分，专为处理海量结构化半结构化数据而设计。HBase 提供了实时读写能力，支持大数据量的存储和检索，尤其适用于实时分析和大数据应用。 ### 一、HBase 基础 1. **HBase 基本介绍** - HBase 是一种非关系型数据库（NoSQL），它将数据存储在行和列中，形成表格形式的数据模型。 - HBase 构建于 HDFS（Hadoop 分布式文件系统）之上，提供了对大规模数据的高并发访问。 2. **HBase 与 Hadoop 的关系** - HBase 是 Hadoop 生态系统的一员，与 HDFS 和 MapReduce 直接集成。它利用 HDFS 存储数据，并可与 MapReduce 结合进行批量数据处理。 3. **RDBMS 与 HBase 的对比** - 相较于传统的 RDBMS（关系型数据库管理系统），HBase 更适合处理稀疏、非结构化的数据。 - HBase 提供了水平扩展能力，可以轻松处理PB级别的数据，而RDBMS通常在垂直扩展方面更擅长。 - RDBMS 使用预定义的模式和关系，而HBase则允许动态列族和灵活性更高的数据模型。 4. **HBase 特征简要** - **分布式存储**：数据自动分布在多个节点上，提供高可用性和容错性。 - **列式存储**：数据按列族存储，有利于只读取部分列，提高读取效率。 - **实时读写**：支持低延迟的实时数据读写操作。 - **稀疏性**：可以存储大量空值，节省存储空间。 ### 二、HBase 基础架构 HBase 的架构主要包括 Region Server、Master Server、ZooKeeper 和 Region 组件： 1. **Region Server**：存储和管理表的分区（Region），负责数据的读写操作。 2. **Master Server**：负责全局协调，包括 Region 的分配、Region Server 的监控和故障恢复。 3. **ZooKeeper**：协调集群中的元数据管理和故障检测。 4. **Region**：是表在物理上的分割，根据行键（RowKey）进行分割和分布。 ### 三、HBase 常用 shell 操作 HBase 提供了命令行接口（shell）用于管理表、执行查询和维护操作，如： 1. **添加操作**：创建表、向表中插入数据。 2. **查询操作**：通过行键、列族、时间戳等条件获取数据。 3. **更新操作**：修改已有数据。 4. **删除操作**：根据行键删除单条数据或整个行。 ### 四、HBase 的高级 shell 管理命令除了基本操作，还有高级命令用于优化和管理，例如表的合并、分裂以及元数据的查看和修改。 ### 五、HBase 的 Java API 开发开发人员可以使用 HBase 的 Java API 进行应用程序开发： 1. **开发 javaAPI 操作 HBase 表数据** - 创建表、关闭表、删除表。 - 插入数据、获取数据、更新数据。 - 执行批量操作。 2. **过滤器查询** - HBase 支持多种过滤器，可以根据特定条件筛选数据，提高查询效率。例如，单行过滤器、比较过滤器、依赖于行键的过滤器等。 3. **根据 rowkey 删除数据** - 可以直接通过行键删除单条记录，这是 HBase 中最直接的删除方式。在实际应用中，理解并熟练掌握这些基本概念和操作，是高效使用 HBase 的关键。此外，还要注意 HBase 的配置优化、数据模型设计以及与其他 Hadoop 组件的协同，以实现最佳性能和可扩展性。

本文档来自公众号：五分钟学大数据

1 / 67

HBase 知识体系吐血总结

本文档来自公众号：五分钟学大数据

微信扫码关注

本文档来自公众号：五分钟学大数据

2 / 67

HBase 涉及的知识点如下图所示，本文将逐一讲解：

........................................................

一、HBase 基础

........................................................................................................................

1. HBase 基本介绍

..........................................................................................................

2. HBase 与 Hadoop 的关系

..........................................................................................

3. RDBMS 与 HBase 的对比

............................................................................................

4. HBase 特征简要

..........................................................................................................

二、HBase 基础架构

................................................................................................................

三、HBase 常用 shell 操作

..................................................................................................

1) 添加操作

......................................................................................................................

2) 查询操作

....................................................................................................................

3) 更新操作

....................................................................................................................

4) 删除操作

....................................................................................................................

四、HBase 的高级 shell 管理命令

....................................................................................

五、HBase 的 Java API 开发

..............................................................................................

1. 开发 javaAPI 操作 HBase 表数据

........................................................................

2. 过滤器查询

................................................................................................................

3. 根据 rowkey 删除数据

............................................................................................

4. 删除表操作

................................................................................................................

六、HBase 底层原理

..............................................................................................................

1. 系统架构

....................................................................................................................

2. HBase 的表数据模型

.................................................................................................

3. 物理存储

....................................................................................................................

4. 读写过程

....................................................................................................................

5. HRegion 管理

.............................................................................................................

6. HMaster 工作机制

.....................................................................................................

7. HBase 三个重要机制

.................................................................................................

七、HBase 与 MapReduce 的集成

........................................................................................

八、HBase 的预分区

..............................................................................................................

1. 为何要预分区？

........................................................................................................

2. 如何预分区？

............................................................................................................

3. 如何设定预分区？

....................................................................................................

九、HBase 的 rowKey 设计技巧

..........................................................................................

1. rowkey 长度原则

......................................................................................................

2. rowkey 散列原则

......................................................................................................

3. rowkey 唯一原则

......................................................................................................

4. 什么是热点

................................................................................................................

十、HBase 的协处理器

..........................................................................................................

1. 起源

............................................................................................................................

2. 协处理器有两种： observer 和 endpoint

.........................................................

3. 协处理器加载方式

....................................................................................................

十一、HBase 当中的二级索引的简要介绍

...........................................................................

十二、HBase 调优

..................................................................................................................

剩余66页未读，继续阅读

身份认证购VIP最低享 7 折!

30元优惠券

资源推荐

资源评论

13572025090

粉丝: 2332

五分钟学大数据-HBase 知识体系吐血总结1

最新资源

五分钟学大数据-HBase 知识体系吐血总结1

五分钟学大数据-Hadoop知识体系吐血宝典1

Spark知识体系吐血总结【无水印版】.pdf

flink-hbase-2.11-1.10.0-API文档-中文版.zip

phoenix-core-4.7.0-HBase-1.1-API文档-中文版.zip

phoenix-hbase-2.4-5.1.2

phoenix-5.0.0-HBase-2.0-client

phoenix-client-hbase-2.2-5.1.2.jar

geomesa-hbase安装包

phoenix-hbase-2.2-5.1.2-bin.tar.gz

phoenix-4.14.1-HBase-1.2-client.jar

phoenix-hbase-1.4-4.16.1-bin

phoenix-4.14.2-HBase-1.3-client.jar

hive-hbase-handler-1.2.1.jar

apache-phoenix-5.0.0-HBase-2.0-bin.tar.gz

apache-phoenix-4.14.3-HBase-1.3-bin.tar.gz

apache-phoenix-4.14.0-HBase-1.2-src.tar.gz

phoenix-hbase各个版本的下载地址

phoenix-5.0.0-HBase-2.0-client.jar

hbase-meta-repair-hbase-2.0.2.jar

Elasticsearch-HBase-River同步

spring-boot-starter-hbase自定义的spring-boot的hbasestarter

基于spring boot 的spring-boot-starter-hbase自动注解实现

apache-kylin-3.0.2-bin-hbase1x.tar.gz

apache-atlas-2.0.0-hbase-hook.tar.gz

apache-phoenix-4.8.1-HBase-0.98-bin.tar

apache-atlas-2.1.0-hbase-hook.tar.gz

ranger-2.0.0-hbase-plugin.tar.gz

hive0.8.1和hbase0.92.0集成的hive-hbase-handler.Jar包

spring-boot-starter-hbase.zip

关于特征值和特征向量的直觉意义

PHP与MySQL：构建高效Web应用的秘密武器

最新资源