随笔分类 -  Hbase

摘要:HBase与Hive的对比 1.Hive (1) 数据仓库 Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。 (2) 用于数据分析、清洗 Hive适用于离线的数据分析和清洗,延迟较高。 (3) 基于HDFS、MapReduce Hive 阅读全文
posted @ 2019-11-29 19:53 花未全开*月未圆 阅读(244) 评论(0) 推荐(0) 编辑
摘要:环境准备 新建项目后在pom.xml中添加依赖: <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-server</artifactId> <version>1.3.1</version> </dependency> 阅读全文
posted @ 2019-11-29 19:51 花未全开*月未圆 阅读(150) 评论(0) 推荐(0) 编辑
摘要:一、服务端调优 1、参数配置 1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC, 阅读全文
posted @ 2019-11-29 19:48 花未全开*月未圆 阅读(253) 评论(0) 推荐(0) 编辑
摘要:第7章 HBase优化 7.1 高可用 在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。 阅读全文
posted @ 2019-11-29 19:36 花未全开*月未圆 阅读(285) 评论(0) 推荐(0) 编辑
摘要:HBase特点 1)海量存储 Hbase适合存储PB级别的海量数据,在PB级别的数据以及采用廉价PC存储的情况下,能在几十到百毫秒内返回数据。这与Hbase的极易扩展性息息相关。正式因为Hbase良好的扩展性,才为海量数据的存储提供了便利。 2)列式存储 这里的列式存储其实说的是列族存储,Hbase 阅读全文
posted @ 2019-11-29 19:32 花未全开*月未圆 阅读(239) 评论(0) 推荐(0) 编辑
摘要:hbase 数据获取方式 hbase 数据排序怎么做? 我觉得这个分两种情况,一是数据量比较少,业务上每次拉取所有的数据,可以在客户端做排序,二是数据比较多,需要分页,这种情况下客户端做显然不合适,因为要从服务器拉取所有数据,排序完成,获取某一页,剩余的数据全都不用,资源损耗比较严重,比较推荐做法是 阅读全文
posted @ 2019-10-20 20:22 花未全开*月未圆 阅读(2458) 评论(0) 推荐(0) 编辑
摘要:1 HBase在商业项目中的能力 每天: 1) 消息量:发送和接收的消息数超过60亿 2) 将近1000亿条数据的读写 3) 高峰期每秒150万左右操作 4) 整体读取数据占有约55%,写入占有45% 5) 超过2PB的数据,涉及冗余共6PB数据 6) 数据每月大概增长300千兆字节。 2 布隆过滤 阅读全文
posted @ 2019-10-13 21:46 花未全开*月未圆 阅读(280) 评论(0) 推荐(0) 编辑
摘要:1 高可用 在HBase中Hmaster负责监控RegionServer的生命周期,均衡RegionServer的负载,如果Hmaster挂掉了,那么整个HBase集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以HBase支持对Hmaster的高可用配置。 1.关闭HBase集群(如果 阅读全文
posted @ 2019-10-13 21:32 花未全开*月未圆 阅读(132) 评论(0) 推荐(0) 编辑
摘要:1 HBase与Hive的对比 1.Hive (1) 数据仓库 Hive的本质其实就相当于将HDFS中已经存储的文件在Mysql中做了一个双射关系,以方便使用HQL去管理查询。 (2) 用于数据分析、清洗 Hive适用于离线的数据分析和清洗,延迟较高。 (3) 基于HDFS、MapReduce Hi 阅读全文
posted @ 2019-10-13 21:19 花未全开*月未圆 阅读(862) 评论(0) 推荐(0) 编辑
摘要:环境准备 新建项目后在pom.xml中添加依赖: 2 HBaseAPI 2.1 获取Configuration对象 2.2 判断表是否存在 2.3 创建表 2.4 删除表 2.5 向表中插入数据 2.6 删除多行数据 public static void deleteMultiRow(String 阅读全文
posted @ 2019-10-13 21:15 花未全开*月未圆 阅读(466) 评论(0) 推荐(0) 编辑
摘要:读流程 HBase读数据流程如图3所示 1)Client先访问zookeeper,从meta表读取region的位置,然后读取meta表中的数据。meta中又存储了用户表的region信息; 2)根据namespace、表名和rowkey在meta表中找到对应的region信息; 3)找到这个reg 阅读全文
posted @ 2019-10-13 21:02 花未全开*月未圆 阅读(298) 评论(0) 推荐(0) 编辑
摘要:1 RowKey 与nosql数据库们一样,RowKey是用来检索记录的主键。访问HBASE table中的行,只有三种方式: 1.通过单个RowKey访问 2.通过RowKey的range(正则) 3.全表扫描 RowKey行键 (RowKey)可以是任意字符串(最大长度是64KB,实际应用中长度 阅读全文
posted @ 2019-10-13 21:01 花未全开*月未圆 阅读(491) 评论(0) 推荐(0) 编辑
摘要:1 基本操作 1.进入HBase客户端命令行 2.查看帮助命令 3.查看当前数据库中有哪些表 2 表的操作 1.创建表 2.插入数据到表 3.扫描查看表数据 4.查看表结构 5.更新指定字段的数据 6.查看“指定行”或“指定列族:列”的数据 7.统计表数据行数 8.删除数据 删除某rowkey的全部 阅读全文
posted @ 2019-10-13 20:58 花未全开*月未圆 阅读(264) 评论(0) 推荐(0) 编辑
摘要:1.1 什么是HBase HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。 官方网站:http://hbase.apache.org -- 2006年Google发表BigTable白皮书 -- 2006 阅读全文
posted @ 2019-10-13 20:52 花未全开*月未圆 阅读(300) 评论(0) 推荐(0) 编辑
摘要:版本:V2.0 第1章 HBase简介 1.1 什么是HBase HBase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。 官方网站:http://hbase.apache.org -- 2006年Google发 阅读全文
posted @ 2019-10-09 21:51 花未全开*月未圆 阅读(7) 评论(0) 推荐(0) 编辑
摘要:使用HBase存储中国好声音数据的案例,业务描述如下: 为了能高效的查询到我们需要的数据,我们在RowKey的设计上下了不少功夫,因为过滤RowKey或者根据RowKey查询数据的效率是最高的,我们的RowKey的设计是:UserID + CreateTime + FileID,那么我们在HBase 阅读全文
posted @ 2019-09-12 21:50 花未全开*月未圆 阅读(4968) 评论(0) 推荐(0) 编辑
摘要:太多column family的影响 每个 MemoryStore分配到的内存较少,进而导致过多的合并,影响性能 几个column family比较合适呢 推荐是:1-3个 划分column family的原则: 1、是否具有相似的数据格式 2、是否具有相似的访问类型 例子一: 相同的rowkey, 阅读全文
posted @ 2019-09-09 12:02 花未全开*月未圆 阅读(291) 评论(0) 推荐(0) 编辑
摘要:介绍HBase 从功能上讲:HBase主要是解决分布式文件系统HDFS不能随机读写而设计的,HBase是架设在HDFS之上的,所以HBase可以存储海量的数据,HBase又可以支持随机读写,所以HBase是一个支持海量数据随机读写的分布式存储系统。 从架构上讲:HBase中由zookeeper集群、 阅读全文
posted @ 2019-09-09 11:17 花未全开*月未圆 阅读(925) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示