西瓜哥119

2019年3月28日

摘要：我们知道，HBASE在创建表的时候，会自动为表分配一个Region，当一个Region过大达到默认的阈值时（默认10GB大小）,HBase中该Region将会进行split，分裂为2个Region，以此类推。表在进行split的时候，会耗费大量的资源，频繁的分区对HBase的性能有巨大的影响。所以，阅读全文

posted @ 2019-03-28 17:13 西瓜哥119 阅读(6260) 评论(0) 推荐(0) 编辑

2019年3月27日

hbase rowkey 的设计

摘要：什么是rowkey Hbase是一个分布式的、面向列的数据库，它和一般关系型数据库的最大区别是：HBase很适合于存储非结构化的数据，还有就是它基于列的而不是基于行的模式. Hbase是采用K,V存储的,那Rowkey就是KeyValue的Key了,Rowkey也是一段二进制码流，最大长度为64KB 阅读全文

posted @ 2019-03-27 16:46 西瓜哥119 阅读(626) 评论(0) 推荐(0) 编辑

hbase 过滤器 rowfilter

摘要： HBase为筛选数据提供了一组过滤器，通过这个过滤器可以在HBase中的数据的多个维度（行，列，数据版本）上进行对数据的筛选操作，也就是说过滤器最终能够筛选的数据能够细化到具体的一个存储单元格上（由行键，列明，时间戳定位）。通常来说，通过行键，值来筛选数据的应用场景较多。 1.创建测试表studne 阅读全文

posted @ 2019-03-27 10:20 西瓜哥119 阅读(1361) 评论(0) 推荐(0) 编辑

2019年3月26日

sparkSQL catalyst

摘要：最近想来，大数据相关技术与传统型数据库技术很多都是相互融合、互相借鉴的。传统型数据库强势在于其久经考验的SQL优化器经验，弱势在于分布式领域的高可用性、容错性、扩展性等，假以时日，让其经过一定的改造，比如引入Paxos、raft等，强化自己在分布式领域的能力，相信一定会在大数据系统中占有一席之地。相阅读全文

posted @ 2019-03-26 10:34 西瓜哥119 阅读(372) 评论(0) 推荐(0) 编辑

2019年3月25日

hbase coprocessor 二级索引

摘要： Coprocessor方式二级索引 1. Coprocessor提供了一种机制可以让开发者直接在RegionServer上运行自定义代码来管理数据。通常我们使用get或者scan来从Hbase中获取数据，使用Filter过滤掉不需要的部分，最后在获得的数据上执行业务逻辑。但是当数据量非常大的时候，这阅读全文

posted @ 2019-03-25 14:18 西瓜哥119 阅读(486) 评论(0) 推荐(0) 编辑

公告