打赏

大数据和人工智能躺过的坑

我是一枚热衷技术的程序员，我是九月哥，每天都在路上！ 3个微信公众号：大数据躺过的坑、九哥九嫂小日子、今日热点在线 2个百家号：九哥九嫂小日子、九哥聊IT 欢迎您的加入，一起来探讨交流技术。目前重点研究Spring、Spring boot、Hadoop、HBase、Zookeeper、Flume、Kafka、Sqoop、Hive、Spark、Flink、Docker等，对Kettle二次开发有一定研究。

随笔分类 - Hadoop HBase概念学习系列

Hadoop HBase概念学习系列之模式设计（十）

摘要：Hbase与RDBMS的区别在于：HBase的Cell（每条数据记录中的数据项）是具有版本描述的（versioned），行是有序的，列（qualifier）在所属列簇（Column families）存在的情况下，由客户端自由添加。以下的几个因素是Hbase Schema设计需要考虑的问题： 1、阅读全文

posted @ 2016-12-07 10:06 大数据和AI躺过的坑阅读(1287) 评论(0) 推荐(0) 编辑

Hadoop HBase概念学习系列之物理视图（又名为物理模型）（九）

摘要：虽然，从HBase的概念视图来看，每个表格是由很多行组成的，但是在物理存储上面，它是按照列来保存的，这一点在进行数据设计和程序开发的时候必须牢记。在物理存储上面，它是按照列来保存的需要注意的是，在概念视图上面有些列是空白的，这样的列实际上并不会被存储，当请求这些空白的单元格时，会返回null值。阅读全文

posted @ 2016-12-07 09:43 大数据和AI躺过的坑阅读(3263) 评论(0) 推荐(0) 编辑

Hadoop HBase概念学习系列之概念视图（又名为逻辑模型）（八）

摘要：其实啊，我们把HBase想象成一个大的映射关系，再者，本来，HBase存储的数据可以理解为一种key和value的映射关系，但有不是简简单单的映射关系那种，因为比如有各个时间戳版本啊。通过行键、行键+时间戳或行键+列（列簇：列修饰符），就可以定位特定是数据。 HBase是稀疏存储数据的，因此某些列阅读全文

posted @ 2016-12-07 09:32 大数据和AI躺过的坑阅读(3624) 评论(0) 推荐(0) 编辑

Hadoop HBase概念学习系列之数据模型（七）

摘要：HBase是一个类似BigTable的分布式数据库，它是一个稀疏的长期存储的（存在硬盘上）、多维度的、排序的映射表。这张表（HBase）的索引是行关键字、列关键字和时间戳。 HBase中的数据都是字符串，没有类型。用户在表格中存储数据，每一行都有一个可排序的主键和任意多的列。由于HBase是稀疏阅读全文

posted @ 2016-12-07 09:20 大数据和AI躺过的坑阅读(756) 评论(0) 推荐(0) 编辑

Hadoop HBase概念学习系列之META表和ROOT表（六）

摘要：在 HBase里的HRegion 里，谈过，HRegion是按照表名+开始/结束主键，即表名+主键范围来区分的。由于主键范围是连续的，所以一般用开始主键就可以表示相应的HRegion了。不过，因为我们有合并和分隔操作，此时，如果正好在执行这些操作的过程中出现死机，那么就可能存在多份表名和开始主键相阅读全文

posted @ 2016-12-06 13:31 大数据和AI躺过的坑阅读(5190) 评论(0) 推荐(1) 编辑

Hadoop HBase概念学习系列之HBase里的HRegion（五）

摘要：首先，要区分，HRegion服务器包含两大部分：HLog部分和HRegion部分 HBase里的HRegion服务器 HBase里的HRegion 当表的大小超过设置值的时候，HBase会自动将表划分为不同的区域，每个区域包含所有行的一个子集。对用户来说，每个表是一堆数据的集合，每个表靠主键来区分。阅读全文

posted @ 2016-12-06 13:06 大数据和AI躺过的坑阅读(1250) 评论(0) 推荐(0) 编辑

Hadoop HBase概念学习系列之HMaster服务器（四）

摘要：每台HRegion服务器都会和HMaster服务器通信，HMaster的主要任务就是告诉每个HRegion服务器它要维护哪些HRegion。当一台新的HRegion服务器登录到HMaster服务器时，HMaster会告诉它先等待分配数据。而当一台HRegion死机时，HMaster会把它负责的H 阅读全文

posted @ 2016-12-06 13:02 大数据和AI躺过的坑阅读(3370) 评论(0) 推荐(0) 编辑

Hadoop HBase概念学习系列之HRegion服务器（三）

摘要：所有的数据库数据一般是保存在Hadoop分布式系统上面的，用户通过一系列HRegion服务器获取这些数据。一台机器上一般只运行一个HRegion服务器，而且每一分区段的HRegion也只会被一个HRegion服务器维护。 HRegion服务器包含两大部分：HLog部分和HRegion部分。 HReg 阅读全文

posted @ 2016-12-06 12:46 大数据和AI躺过的坑阅读(3371) 评论(0) 推荐(0) 编辑

Hadoop HBase概念学习系列之HLog（二）

摘要：首先，明确，HRegion服务器包含两大部分：HLog和HRegion。 HLog用来存储数据日志，采用的是先写日志的方式。当用户需要更新数据的时候，数据会被分配到对应的HRegion服务器上提交修改。数据首先被提交到HLog文件里面，在操作写入HLog之后，commit()调用才会将其返回给客户阅读全文

posted @ 2016-12-06 12:33 大数据和AI躺过的坑阅读(2030) 评论(0) 推荐(1) 编辑