打赏

随笔分类 -  Hadoop HBase概念学习系列

摘要:开启 $HBASE_HOME/bin/hbase-daemon.sh start thrift 关闭 $HBASE_HOME/bin/hbase-daemon.sh stop thrift 阅读全文
posted @ 2017-05-08 22:59 大数据和AI躺过的坑 阅读(8071) 评论(0) 推荐(0) 编辑
摘要:HBase里的RowKey设计,分为随机查询的RowKey设计和连续查询的RowKey设计。 阅读全文
posted @ 2016-12-11 18:08 大数据和AI躺过的坑 阅读(653) 评论(0) 推荐(0) 编辑
摘要:在下面这篇博文里,我给各位博客们,分享了创建HBase表,但这远不止打好基础。 HBase编程 API入门系列之create(管理端而言)(8) 在关系型数据库里,表的高表和宽表是不存在的。在如HBase这样的NoSQL里,才是存在。 HBase里的长表VS宽表VS窄表 在不同场景,结合使用到底是高 阅读全文
posted @ 2016-12-11 17:51 大数据和AI躺过的坑 阅读(692) 评论(0) 推荐(0) 编辑
摘要:在下面这篇博文里,我给各位博客们,分享了创建HBase表,但这远不止打好基础。 HBase编程 API入门系列之create(管理端而言)(8) 在关系型数据库里,表的高表和宽表是不存在的。在如HBase这样的NoSQL里,才是存在。 HBase里的长表VS宽表VS窄表 HBASE宽表应用很多 比如 阅读全文
posted @ 2016-12-11 17:51 大数据和AI躺过的坑 阅读(4179) 评论(0) 推荐(0) 编辑
摘要:HBase集群要求每个节点的时间必须同步。HBase对于节点的时间扭曲(time skew)容忍度很低(这和HDFS是不一样的)。 这主要是因为HBase需要使用系统时间来产生时间戳。如果系统时间不同步的话,那么每个节点产生的时间戳差异就会比较大,这就违背了时间戳设计的初衷。 HBase对于节点间的 阅读全文
posted @ 2016-12-10 08:52 大数据和AI躺过的坑 阅读(7483) 评论(0) 推荐(0) 编辑
摘要:hbase shell中执行java方法(高手必备),务必掌握! 1、 2、 3、 4、 更多命令,见scan help。在实际工作中,多用这个!!! API参考: http://hbase.apache.org/apidocs/index.html 阅读全文
posted @ 2016-12-08 11:00 大数据和AI躺过的坑 阅读(540) 评论(0) 推荐(0) 编辑
摘要:这部分知识点,是必须要熟练玩转的! 见 5 hbase-shell + hbase的java api 的进入HBase Shell 强烈建议,先看我上面的这篇博文,是实实际际的步骤。 另外,附上一篇很不多的PPT资料。 阅读全文
posted @ 2016-12-08 10:12 大数据和AI躺过的坑 阅读(480) 评论(0) 推荐(0) 编辑
摘要:这个,很简单,但凡是略懂大数据的,就很清楚,不多说,直接上图。 阅读全文
posted @ 2016-12-08 09:39 大数据和AI躺过的坑 阅读(418) 评论(0) 推荐(0) 编辑
摘要:这个,很简单,但凡是略懂大数据的,就很清楚,不多说,直接上图。 阅读全文
posted @ 2016-12-08 09:21 大数据和AI躺过的坑 阅读(421) 评论(0) 推荐(0) 编辑
摘要:这个,很简单,但凡是略懂大数据的,就很清楚,不多说,直接上图。 阅读全文
posted @ 2016-12-08 09:20 大数据和AI躺过的坑 阅读(423) 评论(0) 推荐(0) 编辑
摘要:HFile文件是不定长的。 HFile里才是想要的真正数据,实际存储的位置,是在HDFS上。 阅读全文
posted @ 2016-12-08 09:18 大数据和AI躺过的坑 阅读(629) 评论(0) 推荐(0) 编辑
摘要:Store在HBase里称为HStore。HStore包括MemStore和StoreFiles。 阅读全文
posted @ 2016-12-08 09:11 大数据和AI躺过的坑 阅读(822) 评论(0) 推荐(0) 编辑
摘要:HBase里的4维坐标系统(第一步定位行键 -> 第二步定位列簇 -> 第三步定位列修饰符 -> 第四步定位时间戳) HBase里的4维坐标系统(第一步定位行键 -> 第二步定位列簇 -> 第三步定位列修饰符 -> 第四步定位时间戳) 实际上,HBase的存储值,即一个键值对,是 { row key 阅读全文
posted @ 2016-12-07 14:07 大数据和AI躺过的坑 阅读(2388) 评论(0) 推荐(0) 编辑
摘要:列式数据库,从数据存储方式上有别于行式数据库,所有数据按列存取。 行式数据库在做一些列分析时,必须将所有列的信息全部读取出来 而列式数据库由于其是按列存取,因此只需在特定列做I/O即可完成查询与分析,效率节省90%。 此外,列式数据库在每列上还有专门的列压缩算法进一步提高数据库性能,这是行式数据库不 阅读全文
posted @ 2016-12-07 13:36 大数据和AI躺过的坑 阅读(747) 评论(0) 推荐(0) 编辑
摘要:我们通过行键访问HBase。尽管使用扫描过滤器可以一次性指明大量的键,但是HBase仅仅能够根据行键识别出一行。 优秀的行键设计可以保证良好的HBase性能。 1、行键存在于HBase中的每一个单元格中。如果行键越长,用于存储单元格的I/O开销就会越大。通常我们采用MD5加密的定长键来代替行键。 2 阅读全文
posted @ 2016-12-07 11:28 大数据和AI躺过的坑 阅读(2240) 评论(0) 推荐(0) 编辑
摘要:有时候啊,HBase表的设计方案通常,还会考虑如下一些因素,当然,这只是考虑范围里的部分呢。 更多的行还是更多的版本?后者使用了HBase自带的功能。但是需要在列簇中定义最大版本数,这样做可能有风险。最好的做法是版本使用多行存储,这需要把时间戳作为行键的一部分,数据检索模式定义了时间戳如何定义为行键 阅读全文
posted @ 2016-12-07 11:15 大数据和AI躺过的坑 阅读(2996) 评论(0) 推荐(0) 编辑
摘要:需要遵循以下步骤: 1、客户端和Zookeeper集群建立连接。在这之前客户端需要获得一些信息(可以从HBase配置文件中读取或是直接指定)。客户端从Zookeeper集群中读取-ROOT-表的位置信息。这是客户端发起的第一次查询。 2、客户端连接-ROOT-表,并得到.META.表的位置信息。这是 阅读全文
posted @ 2016-12-07 10:59 大数据和AI躺过的坑 阅读(708) 评论(0) 推荐(0) 编辑
摘要:压缩格式:默认压缩格式是NONE。可选值有GZ、LZO、SNAPPY。 版本数:HBase默认定义为3个版本。 以秒为单位的存活时间TTL:使用对象是行中的列簇,一旦达到过期时间,HBase会删除这些行。 快大小:HBase默认的块大小是64KB,不同于HDFS默认64MB的块大小。原因是HBase 阅读全文
posted @ 2016-12-07 10:47 大数据和AI躺过的坑 阅读(1046) 评论(0) 推荐(0) 编辑
摘要:列在列簇中依照字典排序。例如,列簇是基础信息或公司域名或水果类。列是基础信息:面貌、基础信息:年龄、公司域名:org、公司域名:edu、水果类:苹果、水果类:香蕉。 列 = 列簇:列修饰符 列根据列簇分组。 列簇的特点: 1、一张表通常有一单独的列簇,而且一张表中的列簇不会超过5个。 2、列簇必须在 阅读全文
posted @ 2016-12-07 10:33 大数据和AI躺过的坑 阅读(9117) 评论(0) 推荐(0) 编辑
摘要:行是由列簇中的列组成。行根据行键依照字典顺序排序。 HBase的行使用行键标识,可以使用行键查询整行的数据。 对同一个行键的访问都会落在同样的物理节点上。如果表包含2个列簇,属于两个列簇的文件还是保存在相同的节点上。因此,行键和节点存在一一对应的关系。 阅读全文
posted @ 2016-12-07 10:27 大数据和AI躺过的坑 阅读(1836) 评论(0) 推荐(0) 编辑