+1000 - 博客园

2022年7月10日

摘要： HBase适合存储PB级别的海量数据（百亿千亿量级条记录），如果根据记录主键Rowkey来查询，能在几十到百毫秒内返回数据。那么HBase是如何做到的呢？接下来，简单阐述一下数据的查询思路和过程。查询过程第1步：项目有100亿业务数据，存储在一个HBase集群上（由多个服务器数据节点构成）阅读全文

posted @ 2022-07-10 19:43 +1000 阅读(81) 评论(0) 推荐(0)

2022年7月7日

HBase-day07 Region的分裂策略

摘要： Region的分裂策略 region中存储的是一张表的数据，当region中的数据条数过多的时候，会直接影响查询效率。当region过大的时候，region会被拆分为两个region，HMaster会将分裂的region分配到不同的regionserver上，这样可以让请求分散到不同的RegionS 阅读全文

posted @ 2022-07-07 23:19 +1000 阅读(370) 评论(0) 推荐(0)

HBase-day06 HBase过滤器

摘要： JAVA API pom文件 <dependency> <groupId>junit</groupId> <artifactId>junit</artifactId> <version>4.12</version> </dependency> <dependency> <groupId>org.ap 阅读全文

posted @ 2022-07-07 22:31 +1000 阅读(92) 评论(0) 推荐(0)

HBase-day05 HBase读写流程

摘要： HBase的读写流程 1.1 HBase读流程 Hbase读取数据的流程： 1）是由客户端发起读取数据的请求，首先会与zookeeper建立连接 2）从zookeeper中获取一个hbase:meta表位置信息，被哪一个regionserver所管理着 hbase:meta表：hbase的元数据表，阅读全文

posted @ 2022-07-07 08:53 +1000 阅读(38) 评论(0) 推荐(0)

2022年7月6日

HBase-day04 HBase Shell

posted @ 2022-07-06 16:07 +1000 阅读(56) 评论(0) 推荐(0)

HBase-day03 HBase集群搭建

摘要： HBase1.7.1安装搭建 4.1 hbase下载官网下载地址：https://www.apache.org/dyn/closer.lua/hbase/1.7.1/hbase-1.7.1-bin.tar.gz 4.2 前期准备（Hadoop,zookeeper,jdk）启动hadoop sta 阅读全文

posted @ 2022-07-06 09:45 +1000 阅读(45) 评论(0) 推荐(0)

HBase-day02 HBase系统架构

摘要： HBase系统架构 3.1 架构图 3.2 组件介绍 HBase由三种类型的服务器以主从模式构成： Region Server：负责数据的读写服务，用户通过与Region server交互来实现对数据的访问。 HBase HMaster：负责Region的分配及数据库的创建和删除等操作。 ZooKe 阅读全文

posted @ 2022-07-06 09:31 +1000 阅读(95) 评论(0) 推荐(0)

2022年7月5日

HBase-day01 HBase基本概述和相关概念

摘要： Hbase基本概述 1.1 HBase概述 HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，用于存储海量的结构化或者半结构化，非结构化的数据 HBase是Hadoop的生态系统之一，是建立在Hadoop文件系统（HDFS）之上的分布式、面向列的数据库，通过利用Hadoop的文件系阅读全文

posted @ 2022-07-05 16:51 +1000 阅读(250) 评论(0) 推荐(0)

2022年7月1日

Hive-day14 Hive优化

摘要： Hive优化 1.1 hive的随机抓取策略理论上来说，Hive中的所有sql都需要进行mapreduce，但是hive的抓取策略帮我们省略掉了这个过程，把切片split的过程提前帮我们做了。 set hive.fetch.task.conversion=none; (一旦进行这么设置，sele 阅读全文

posted @ 2022-07-01 22:20 +1000 阅读(54) 评论(0) 推荐(0)

Hive-day13 Hive各种函数分类

摘要： Hive自定义函数UserDefineFunction UDF：一进一出定义UDF函数要注意下面几点: 继承org.apache.hadoop.hive.ql.exec.UDF 重写evaluate()，这个方法不是由接口定义的,因为它可接受的参数的个数,数据类型都是不确定的。Hive会检查UDF 阅读全文

posted @ 2022-07-01 22:19 +1000 阅读(65) 评论(0) 推荐(0)