RowKey的设计原则
摘要:RowKey在读写中起到的作用 读写时通过RowKey路由到对应的Region; MemStore中的数据按RowKey进行排序; HFile中的数据按RowKey进行排序;RowKey的设计直接影响Region的划分 Hbase通过RowKey检索数据的三种方式 通过单个row key访问:即按照
阅读全文
posted @
2022-05-30 08:54
溪水静幽
阅读(531)
推荐(0) 编辑
预分区与自动分区
摘要:Region自动拆分 HBase 中,表会被划分为1...n 个 Region,被托管在 RegionServer 中。 Region 重要的属性:StartKey 与 EndKey 表示这个 Region 维护的 RowKey 范围,当读/写数据时,如果 RowKey 落在某个 start-end
阅读全文
posted @
2022-05-29 17:50
溪水静幽
阅读(154)
推荐(0) 编辑
Hbase多版本
摘要:hbase支持多版本存储,其一条数据的多版本是以timestamp来标识的。version就是同一条数据插入不同的时间戳来实现的,在hbase底层的存储是基于时间戳排序的,所以每次查到的数据都是最新的版本 1、在shell端创建一个Hbase表 create 't1','f1' 2、查看表结构 de
阅读全文
posted @
2022-05-23 10:05
溪水静幽
阅读(1250)
推荐(0) 编辑
Hbase 协处理器
摘要:使用 HBase 时,如果数据量达到数十亿行或数百万列,此时能否在查询中返回大量数据将受制于网络的带宽,即便网络状况允许,但是客户端的计算处理也未必能够满足要求。在这种情况下,协处理器(Coprocessors)应运而生。允许你将业务计算代码放入在 RegionServer 的协处理器中,将处理好的
阅读全文
posted @
2022-05-21 23:31
溪水静幽
阅读(287)
推荐(0) 编辑
Hbase过滤器
摘要:Hbase 提供种类丰富的过滤器(filter)来提高数据处理的效率,用户通过内置或自定义的过滤器来对数据进行过滤,所有过滤器都在服务端生效,即谓词下推(predicate push down)。保证过滤掉的数据不会被传送到客户端,从而减轻网络传输和客户端处理的压力。 Filter接口和Filter
阅读全文
posted @
2022-05-21 21:24
溪水静幽
阅读(205)
推荐(0) 编辑
Hbase Java Api
摘要:考虑是否可以使用自定义连接池来获取更好的性能表现? 对于高并发多线程访问的应用程序(例如,在单个 JVM 中存在的为多个线程服务的 Web 服务器或应用程序服务器), 只需要预先创建一个 Connection。Connection 是一个集群连接,封装了与多台服务器(Matser/Region Se
阅读全文
posted @
2022-05-21 17:56
溪水静幽
阅读(120)
推荐(0) 编辑
Hbase系统架构
摘要:典型Hbase Table 表 Row Key (行键) Row Key 用来检索记录的主键。访问 HBase Table 中的数据,只有以下三种方式: 通过指定的 Row Key 进行访问; 通过 Row Key 的 range 进行访问,即访问指定范围内的行; 进行全表扫描。 Row Key 可
阅读全文
posted @
2022-05-21 17:02
溪水静幽
阅读(435)
推荐(0) 编辑
Hbase shell
摘要:打开 Hbase Shell: # hbase shell 查看服务器状态 status 查看所有表 list 创建表 create '表名称', '列族名称 1','列族名称 2','列名称 N' # 创建一张名为Student的表,包含基本信息(baseInfo)、学校信息(schoolInfo
阅读全文
posted @
2022-05-18 23:23
溪水静幽
阅读(60)
推荐(0) 编辑
Hbase简介
摘要:HBase 是一个构建在 Hadoop 文件系统之上的面向列的数据库管理系统。 Hadoop 存在限制?Hadoop 通过 HDFS 存储结构化、半结构甚至非结构化的数据,是传统数据库的补充,是海量数据存储的最佳方法,针对大文件的存储,批量访问和流式访问都了优化,也通过多副本解决容灾问题。 Hado
阅读全文
posted @
2022-05-18 21:39
溪水静幽
阅读(269)
推荐(0) 编辑