HBase-7.hbase查询多版本数据&过滤器原则&批量导入Hbase&hbase预分区

最新推荐文章于 2023-09-01 09:46:11 发布

艾文教编程

最新推荐文章于 2023-09-01 09:46:11 发布

阅读量4.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：分布式数据存储技术文章标签： hbase

本文链接：https://blog.csdn.net/shenfuli/article/details/50589496

分布式数据存储技术专栏收录该内容

75 篇文章

订阅专栏

本文详细介绍了使用Hbaseshell命令模式和JAVA API模式查询HBase同一记录多个版本数据的方法，并阐述了BloomFilter在HBase中的应用原理及影响，最后讨论了HBase短时间大量数据导入导致锁定的问题解决策略以及预分区的实现方式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

HBase怎么查询同一条记录多个版本数据

（1）Hbase shell命令模式

get 'stu','rk01', {COLUMN => 'info:name', VERSIONS => 5}

（2）JAVA API 模式

Get get = new Get("rk01".getBytes());

get.addColumn("info".getBytes(), "name".getBytes());

get.setMaxVersions(5);

rs = tTable.get(get);

HBase过滤器实现原则

采用bloomfilter进行过滤，Bloom Filter是一种空间效率很高的随机数据结构

（1）BLOOMFILTER在HBase的作用

HBase利用 BLOOMFILTER来提供随机读（GET）的性能，对于顺序读（Scan），设置BLOOMFILTER是没有作用的。

（2）BLOOMFILTER在HBase的开销

BLOOMFILTER是一个列族级别的配置，如果你表中设置了BLOOMFILTER，那么HBase在生成StoreFile时候包含一份BLOOMFILTER的结构数据，称为MetaBlock；开启BLOOMFILTER会有一定的存储以及内存的开销。

（3）BLOOMFILTER如何提供随机读（GET）的性能

对于某个region的随机读，HBase会遍历读memstore及storefile（按照一定的顺序），将结果合并返回给客户端。如果你设置了bloomfilter，那么在遍历读storefile时，就可以利用bloomfilter，忽略某些storefile。

（4）Region的StoreFile数目越多，BLOOMFILTER效果越好

（5）Region下的storefile数目越少，HBase读性能越好

HBase短时间批量导入数量过多的话就会被锁，该怎么办？

通过调用 HTable.setAutoFlush(false)方法可以将 HTable 写客户端的自动 flush关闭，这样可以批量写入数据到 HBase，而不是有一条 put 就执行一次更新，只有当put 填满客户端写缓存时，才实际向 HBase 服务端发起写请求。默认情况下 auto flush是开启的。