BigData大数据应用开发学习笔记(06)实时检索--HBase

最新推荐文章于 2025-08-22 11:49:22 发布

原创最新推荐文章于 2025-08-22 11:49:22 发布 · 162 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#大数据

大数据专栏收录该内容

6 篇文章

订阅专栏

BigData大数据应用开发学习笔记(06)实时检索--HBase

一.关于实时检索
1.核心诉求
检索性能要求高：秒级响应，不承担复杂查询和统计类查询
高并发查询：大于100的并发
数据量大：PB级数据量，集群规模在1000节点以上。图数据库场景，点个数在10亿以上，边个数在100亿以上
支持结构化和非结构化：需要同时保存结构化数据和非结构化数据，经常用来对图片等小文件进行检索
高效的数据加载：每小时可加载TB级数据
支持图检索：支持检索图数据，支持图标准查询接口

2.实时检索解决方案
根据关键词进行即时、快速搜索，实现即搜即得的效果，强调的是实时低延迟。
文件数据批量加载(Loader、Flume、Spark、第三方加载)，流式数据实时加载(Spark Streaming、第三方采集)，图数据(GraphBase导入工具)。
实时检索引擎(HBASE、ElasticSearch)，GraphBase(可选)
业务应用：轨迹查询，日志查询，话费查询

二.HBase
1.HBase简介
HBase是一个分布式的NoSQL数据库，其特点高可靠、高性能、面向列、可伸缩。
适合存储大表数据，并且可实时读写大表数据。
表结构稀疏
数据底层存储于Hadoop HDFS分布式文件系统
利用ZooKeeper作为协同服务

2.HBase应用场景
海量数据(TB、PB)
不需要完全拥有传统关系型数据库所具备的ACID特性。
高吞吐量
需要在海量数据中实现高效的随机读取。
需要很好的性能伸缩能力
能够同时处理结构化和非结构化的数据

3.HBase系统架构
Client -> ZooKeeper -> HMaster -> HBase -> DFS Client -> HDFS -> DataNode

4.HBase存储模型
底层数据以KeyValue的形式存在，KeyValue具有特定的格式，KeyValue中拥有时间戳、类型等关键信息。
同一个Key值可以关联多个Value，每个KeyValue都拥有一个Qualifier标识。
即使是Key值相同，Qualifier也想通的多个KeyValue，也可能有多个版本，此时使用时间戳来区分，这就是同一条数据记录的多版本。

ID Name Phone Address
Key-01 -> Value-ID01 Key-01 -> Value-Name01
Key-01 -> Value-Phone01 Key-01 -> Value-Address01

5.HBase缓存机制
两种类型的缓存结构：MemStore，BlockCache
MemStore：HBase数据先写入HLog之中，并同时写入MemStore，待满足一定条件后将MemStore中数据刷到磁盘，能提升HBase的写性能和读性能。
BlockCache：HBase会将一次文件查找的Block块缓存到Cache中，以便后续同一请求或者相邻数据查找请求，可以直接从内存中获取，避免IO操作。

6.HBase BloomFilter
BloomFilter用来优化一些随机读取的场景，即Get场景。可以被用来快速判断一条数据在一个大的数据集合中是否存在。
BloomFilter在判断一个数据是否存在时，拥有一定的误判率。但对于"该条数据不存在"的判断结果是可信的。
HBase的BloomFilter的相关数据，被保存在HFile中。

7.HBase客户端
客户端命令对HBase数据库进行各种操作，增删改查，表快照备份等。

进入HBase客户端
hbase shell

查看帮助命令
help

查看列表信息
list

创建表，指导列族
create 'my_tb', 'info'

创建命名空间
create_namespace 'ns'

查看命名空间的表
list_namespace_tables 'ns'

插入数据
put
'my_tb', '20190501', 'info:name', 'ez'

扫描表数据
scan 'my_tb'

get查询数据
get 'my_tb', '20190501'

8.SQL On HBase
Apache Phoenix将SQL查询编译为一系列HBase扫描。可以为小型查询提供毫秒级的性能，或者为数千万行提供数秒的性能。
Phoenix SQL支持的部分语法：

例如:
SELECT * FROM TEST LIMIT 1000;
CREATE TABLE my schema.my table (
id BIGINT not null primary key,
date Date
) ;
DELETE FROM TEST WHERE ID=123;

Phoenix SQL语法参考:
http://phoenix.apache.org/language

9.API使用
(1).创建删除表
通过org.apache.hadoop.hbase.client.Admin实例的createTable方法来创建表，并指定表名、列族名。
Admin admin = conn.getAdmin();
admin.createTable(tableName);

通过org.apache.hadoop.hbase.client.Admin实例的createTable方法来删除表
Admin admin = conn.getAdmin();
// 先停用表
admin.disableTable(tableName)
// 执行删除
admin.deleteTable(tableName)

(2).插入删除数据
HBase通过Table实例的put方法来插入数据，可以是一行数据也可以是数据集。
Table table = conn.getTable(tableName);
List<Put> puts = new ArrayList<Put>();
Put put = new Put(Bytes.toBytes("012005000201"));
put.addColumn(familyName, qualifiers[0], Bytes.toBytes("Zhang San"));
puts.add(put);
table.put(puts);

HBase通过Table实例的delete方法来Delete数据，可以是一行数据也可以是数据集。
byte[] rowKey = Bytes.toBytes("012005000201");
Table table = conn.getTable(tableName);
// 创建一个Delete对象
Delete delete = new Delete(rowKey);
// 表对象的delete方法传入delete对象为参数，提交删除请求
table.delete(delete);

(3).Get读取数据
要从表中读取一条数据，首先需要实例化该表对应的Table实例，然后创建一个Get对象。也可以为Get对象设定参数值，如列族的名称和列的名称。查询到的行数据存储在Result对象中，Result中可以存储多个Cell。
byte[] familyName = Bytes.toBytes("info");
byte[][] qualifier = { Bytes.toBytes("name"), Bytes.toBytes("address") };
byte[] rowKey = Bytes.toBytes("012005000201");
Table table = conn.getTable(tableName);
Get get = new Get(rowKey);
get.addColumn(familyName, qualifier[0]);
get.addColumn(familyName, qualifier[1]);
Result result = table.get(get);
for (Cell cell : result.rawCells()) { Example }

(4).Scan读取数据
要从表中读取数据，首先需要实例化该表对应的Table实例，然后创建一个Scan对象，并针对查询条件设置Scan对象的参数值，为了提高查询效率，最好指定StartRow和StopRow。查询结果的多行数据保存在ResultScanner对象中，每行数据以Result对象形式存储，Result中存储了多个Cell。
Table table = conn.getTable(tableName);
Scan scan = new Scan();
// 添加列族和列名
scan.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name"));
// 设置缓存大小，也可设置起始结束的rowKey等
scan.setCaching(1000);
// 提交Scan请求
ResultScanner rScanner = table.getScanner(scan);
// 解析处理结果
for (Result r = rScanner.next(); r != null; r = rScanner.next())
{for (Cell cell : r.rawCells()) { Example }}

(5).过滤器Filter
HBase Filter主要在Scan和Get过程中进行数据过滤，通过设置一些过滤条件来实现，如设置RowKey，列名或者列值的过滤条件。
Table table = conn.getTable(tableName);
Scan scan = new Scan();
scan.addColumn(Bytes.toBytes("info"), Bytes.toBytes("name"));
// 创建过滤对象，单列值过滤器，参数为列族、列名、过滤列值"Xu Bing"
SingleColumnValueFilter filter = new SingleColumnValueFilter(
Bytes.toBytes("info"), Bytes.toBytes("name"), CompareOp.EQUAL, Bytes.toBytes("Xu Bing"));
// 为scan对象设置过滤器对象，即扫描设置过滤条件
scan.setFilter(filter);
// 提交扫描请求
ResultScanner rScanner = table.getScanner(scan);
// 解析处理结果
for (Result r = rScanner.next(); r != null; r = rScanner.next())
{for (Cell cell : r.rawCells()) { Example }
}