lenomail

2021年4月9日

摘要：简介 NumPy 是Numerical Python的简称 NumPy ndarray NumPy的核心特征之一就是N维数组对象ndarray，此是一个python的中一个快速、灵活的大型数据集容器。阅读全文

posted @ 2021-04-09 14:36 lenomail 阅读(32) 评论(0) 推荐(0)

2021年4月3日

摘要：简介在HBASE中，跳跃表有是应用在MEM上做为查询有若干的平衡数据结构像：B树、红黑树、AVL树等，这类树在大的数据量存储上会有些性能上的瓶颈。于是搜索理论，然后找B站学习了一下相关视频：若干数据结构讲究CRUD操作，今天我们来简单地把这些原理性问题解释一下，看看跳跃表是如何实现这类操作的。阅读全文

posted @ 2021-04-03 21:30 lenomail 阅读(275) 评论(0) 推荐(0)

2021年3月31日

Hbase的Schema设计

摘要： Preface 下面将描述几个Hbase典型数据接入用户案例，Rowkey如何设计和构造的方法；提示：这些只是提供可能的方法，非详尽的方法，这取决于你的业务需求。 Log Data / Timeseries Data 假设如下数据元素已经归集： Hostname Timestamp Log eve 阅读全文

posted @ 2021-03-31 10:41 lenomail 阅读(276) 评论(0) 推荐(0)

2021年3月30日

Correct keeping Deleted Cells

摘要： Let us illustrate the basic effect of setting the KEEP_DELETED_CELLS attribute on a table. Execute those following SQL. create 'test', {NAME=>'e', VER 阅读全文

posted @ 2021-03-30 22:31 lenomail 阅读(47) 评论(0) 推荐(0)

Rowkey设计

摘要： Rowkey的设计是hbase中设计非常重要的一点，若干性能上的问题都是基于这个引发的。 1. Hotspotting ref : https://hbase.apache.org/book.html#rowkey.design 阅读全文

posted @ 2021-03-30 10:21 lenomail 阅读(56) 评论(0) 推荐(0)

2021年3月15日

转：深入HBase架构解析（二）

摘要： HBase读的实现通过前文的描述，我们知道在HBase写时，相同Cell(RowKey/ColumnFamily/Column相同)并不保证在一起，甚至删除一个Cell也只是写入一个新的Cell，它含有Delete标记，而不一定将一个Cell真正删除了，因而这就引起了一个问题，如何实现读的问题？要阅读全文

posted @ 2021-03-15 14:56 lenomail 阅读(74) 评论(0) 推荐(0)

2021年3月11日

HBase 数据库检索性能优化策略

摘要： HBase 数据表优化 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式数据库，但是当并发量过高或者已有数据量很大时，读写性能会下降。我们可以采用如下方式逐步提升 HBase 的检索速度。预先分区默认情况下，在创建 HBase 表的时候会自动创建一个 Region 分区，当导入数据的时阅读全文

posted @ 2021-03-11 13:54 lenomail 阅读(261) 评论(0) 推荐(0)

2021年3月8日

HBase表rowKey设计原则

摘要： rowkey设计首先应当遵循三大原则： rowkey长度原则 rowkey是一个二进制码流，可以为任意字符串，最大长度为64kb，实际应用中一般为10-100bytes，它以byte[]形式保存，一般设定成定长。一般越短越好，不要超过16个字节，注意原因如下： 1、目前操作系统都是64位系统，内存阅读全文

posted @ 2021-03-08 10:46 lenomail 阅读(173) 评论(0) 推荐(0)

2021年3月4日

转：深入HBase架构解析（一）

摘要： HBase架构组成 HBase采用Master/Slave架构搭建集群，它隶属于Hadoop生态系统，由一下类型节点组成：HMaster节点、HRegionServer节点、ZooKeeper集群，而在底层，它将数据存储于HDFS中，因而涉及到HDFS的NameNode、DataNode等，总体结构阅读全文

posted @ 2021-03-04 13:29 lenomail 阅读(141) 评论(0) 推荐(0)

HBASE表介绍

摘要： Hbase表表(Table): 表名是映射成hdfs上面的文件，所以要合法名字。行(Row): 每一行都是以一个行键（Row Key）来进行唯一标识的，以二进制的字节来存储。列族(Column Family): 列族一旦确定后，就不能轻易修改，因为它会影响到HBase真实的物理存储结构，但是列阅读全文

posted @ 2021-03-04 10:26 lenomail 阅读(903) 评论(0) 推荐(0)

公告