打赏

随笔分类 -  Hadoop HBase概念学习系列

摘要:Hbase与RDBMS的区别在于:HBase的Cell(每条数据记录中的数据项)是具有版本描述的(versioned),行是有序的,列(qualifier)在所属列簇(Column families)存在的情况下,由客户端自由添加。以下的几个因素是Hbase Schema设计需要考虑的问题: 1、  阅读全文
posted @ 2016-12-07 10:06 大数据和AI躺过的坑 阅读(1287) 评论(0) 推荐(0) 编辑
摘要:虽然,从HBase的概念视图来看,每个表格是由很多行组成的,但是在物理存储上面,它是按照列来保存的,这一点在进行数据设计和程序开发的时候必须牢记。 在物理存储上面,它是按照列来保存的 需要注意的是,在概念视图上面有些列是空白的,这样的列实际上并不会被存储,当请求这些空白的单元格时,会返回null值。 阅读全文
posted @ 2016-12-07 09:43 大数据和AI躺过的坑 阅读(3263) 评论(0) 推荐(0) 编辑
摘要:其实啊,我们把HBase想象成一个大的映射关系,再者,本来,HBase存储的数据可以理解为一种key和value的映射关系,但有不是简简单单的映射关系那种,因为比如有各个时间戳版本啊。 通过行键、行键+时间戳或行键+列(列簇:列修饰符),就可以定位特定是数据。 HBase是稀疏存储数据的,因此某些列 阅读全文
posted @ 2016-12-07 09:32 大数据和AI躺过的坑 阅读(3624) 评论(0) 推荐(0) 编辑
摘要:HBase是一个类似BigTable的分布式数据库, 它是一个稀疏的长期存储的(存在硬盘上)、多维度的、排序的映射表。这张表(HBase)的索引是行关键字、列关键字和时间戳。 HBase中的数据都是字符串,没有类型。 用户在表格中存储数据,每一行都有一个可排序的主键和任意多的列。由于HBase是稀疏 阅读全文
posted @ 2016-12-07 09:20 大数据和AI躺过的坑 阅读(756) 评论(0) 推荐(0) 编辑
摘要:在 HBase里的HRegion 里,谈过,HRegion是按照表名+开始/结束主键,即表名+主键范围来区分的。由于主键范围是连续的,所以一般用开始主键就可以表示相应的HRegion了。 不过,因为我们有合并和分隔操作,此时,如果正好在执行这些操作的过程中出现死机,那么就可能存在多份表名和开始主键相 阅读全文
posted @ 2016-12-06 13:31 大数据和AI躺过的坑 阅读(5190) 评论(0) 推荐(1) 编辑
摘要:首先,要区分,HRegion服务器包含两大部分:HLog部分和HRegion部分 HBase里的HRegion服务器 HBase里的HRegion 当表的大小超过设置值的时候,HBase会自动将表划分为不同的区域,每个区域包含所有行的一个子集。对用户来说,每个表是一堆数据的集合,每个表靠主键来区分。 阅读全文
posted @ 2016-12-06 13:06 大数据和AI躺过的坑 阅读(1250) 评论(0) 推荐(0) 编辑
摘要:每台HRegion服务器都会和HMaster服务器通信,HMaster的主要任务就是告诉每个HRegion服务器它要维护哪些HRegion。 当一台新的HRegion服务器登录到HMaster服务器时,HMaster会告诉它先等待分配数据。 而当一台HRegion死机时,HMaster会把它负责的H 阅读全文
posted @ 2016-12-06 13:02 大数据和AI躺过的坑 阅读(3370) 评论(0) 推荐(0) 编辑
摘要:所有的数据库数据一般是保存在Hadoop分布式系统上面的,用户通过一系列HRegion服务器获取这些数据。一台机器上一般只运行一个HRegion服务器,而且每一分区段的HRegion也只会被一个HRegion服务器维护。 HRegion服务器包含两大部分:HLog部分和HRegion部分。 HReg 阅读全文
posted @ 2016-12-06 12:46 大数据和AI躺过的坑 阅读(3371) 评论(0) 推荐(0) 编辑
摘要:首先,明确,HRegion服务器包含两大部分:HLog和HRegion。 HLog用来存储数据日志,采用的是先写日志的方式。 当用户需要更新数据的时候,数据会被分配到对应的HRegion服务器上提交修改。数据首先被提交到HLog文件里面,在操作写入HLog之后,commit()调用才会将其返回给客户 阅读全文
posted @ 2016-12-06 12:33 大数据和AI躺过的坑 阅读(2030) 评论(0) 推荐(1) 编辑