2022 年 1月随笔档案 - 追こするれい的人

Flume Source 详解

摘要：Flume Source 详解 Source 类型 Flume 支持从不同的 Source（数据源）采集数据，如下：数据源描述 Avro Source 通过监听一个网络端口来接受数据，而且接受的数据必须是使用avro序列化框架序列化后的数据； Thrift Source 监听Thrift端口并从外阅读全文

posted @ 2022-01-28 23:55 追こするれい的人阅读(167) 评论(0) 推荐(0) 编辑

Flume 架构

摘要：核心概念 Agent Flume 最核心的角色就是 Agent。Flume 数据采集系统是由一个个 Agent 连接起来的数据传输通道对于每个 Agent来说就是一个独立的守护进程（JVM）,它负责从数据源接收数据，并发送到下一个目的地 Agent 内部有三个重要的组件：Source,Chann 阅读全文

posted @ 2022-01-28 21:43 追こするれい的人阅读(148) 评论(0) 推荐(0) 编辑

Flume 简介

摘要：Flume 是什么 Flume 是一个开源的分布式数据收集框架，可以提供一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统当前 Flume 有两个版本 Flume 0.9X 版本的统称 Flume-og，Flume1.X 版本的统称 Flume-ng。由于 Flume-ng 经过重大重阅读全文

posted @ 2022-01-28 20:47 追こするれい的人阅读(182) 评论(0) 推荐(0) 编辑

HBase 二级索引

摘要：为什么需要二级索引 HBase 一个令人惋惜的地方，就是不支持二级索引。因此，在实际项目开发中有一些补充方案来填补 HBase 的二级索引能力的缺陷。 HBase 系统单纯从解决大数据实时读写问题角度出发，重点关注于分布式存储的扩展性、容错性、读写性能等方面，为此也牺牲了很多传统关系型数据库的功能，阅读全文

posted @ 2022-01-28 20:42 追こするれい的人阅读(247) 评论(0) 推荐(0) 编辑

HBase Region 拆分与合并

摘要：HBase Region 拆分与合并 Region 拆分 Region 自动拆分 HBase Region 的自动拆分有 6 种触发策略，如下： ConstantSizeRegionSplitPolicy ：按照固定大小来拆分 Region 策略 IncreasingToUpperBoundRegi 阅读全文

posted @ 2022-01-28 20:28 追こするれい的人阅读(431) 评论(0) 推荐(0) 编辑

HBase Compaction（HFile 文件合并）

摘要：何为 Compaction 通过 MemStore 的 Flush 机制会生成一个个 HFile 小文件，HFile 小文件如果数量太多会影响读取性能。为了提高读取效率，就需要通过 Compaction 机制将小文件 HFile 合并成大文件，提升读取效率。 Compaction 的作用在 HBa 阅读全文

posted @ 2022-01-28 20:10 追こするれい的人阅读(634) 评论(0) 推荐(0) 编辑

HBase MemStore Flush 机制时机

摘要：什么是 MemStore Flush 机制 Region 的写缓存 MemStore 将数据写入到磁盘中并产生 HFile 文件的过程叫做 MemStore Flush 机制触发 MemStore Flush 机制的情况客户端手工触发 Flush 机制执行 Flush 命令将 Table 表阅读全文

posted @ 2022-01-28 19:56 追こするれい的人阅读(145) 评论(0) 推荐(0) 编辑

HBase 读写数据流程

摘要：HBase 读写数据流程 HBase 读数据流程客户端创建 Connection 连接对象，通过加载的 hbase-site.xml 配置文件获得 zk 集群地址客户端连接到 zk 集群然后去读取 zk 目录 /hbase/meta-region-server 的配置信息，找到 meta 表存放阅读全文

posted @ 2022-01-13 20:24 追こするれい的人阅读(134) 评论(0) 推荐(0) 编辑

HRegionServer 内部机制

摘要：HRegionServer 内部机制 WALs（写日志） WALs 即 Write Ahead Log，在早期版本中称为 HLog，它是 HDFS 上的一个文件，所有写操作都会先保证将数据写入这个 Log 文件后（类似于 Redis 的 AOF 文件），才会真正更新 MemStore（写缓存），最后阅读全文

posted @ 2022-01-13 20:04 追こするれい的人阅读(91) 评论(0) 推荐(0) 编辑

HBase RowKey 设计

摘要：HBase RowKey 设计设计 RowKey 的目的 HBase 中一条数据的唯一标识就是 RowKey，类似于关系型数据库中的主键，HBase 中的数据是根据 Row Key 的字典顺序来排序的。那么这条数据存储于哪个分区，取决于 Rowkey 处于哪一个预分区的区间内，设计 Rowkey 阅读全文

posted @ 2022-01-13 19:35 追こするれい的人阅读(120) 评论(0) 推荐(0) 编辑

HBase 命令行客户端过滤器

摘要：HBase 命令行客户端过滤器、在 HBase 中，get 和 scan 命令都可以使用过滤器来设置输出的范围，类似 SQL 里的 Where 查询条件。 show_filter 命令（查看 HBase 支持的过滤器类型） hbase(main):016:0> show_filters ### 行阅读全文

posted @ 2022-01-13 19:12 追こするれい的人阅读(317) 评论(0) 推荐(0) 编辑

HBase 命令行客户端操作

摘要：HBase 命令行客户端操作启动 HBase 命令行客户端 [root@node-01 bin]# hbase shell HBase 命令行帮助 hbase(main):004:0> help 通用命令 whoami 命令（查看当前用户） hbase(main):004:0> whoami st 阅读全文

posted @ 2022-01-13 18:58 追こするれい的人阅读(404) 评论(0) 推荐(0) 编辑

HBase 数据模型

摘要：HBase 数据模型逻辑视图 HBase 逻辑视图（表结构）如下：基本概念术语 Table（表） HBase 一个表由多行组成 Row Key（行键） HBase 中表中一行的唯一标识（类似于关系表中的主键）。一张表中所有行都按照行键（rowkey）的字典序由小到大排序。 Row（行） HBas 阅读全文

posted @ 2022-01-13 18:37 追こするれい的人阅读(342) 评论(0) 推荐(0) 编辑

HBase 体系结构

摘要：Client 客户端包含访问 HBase 的接口，同时在缓存中维护着已经访问过的 Region 位置信息，用来加快后续数据访问过程 Zookeeper 在 HBase 系统中，ZooKeeper 扮演着非常重要的角色实现 HMaster 高可用：通常情况下系统中只有一个 HMaster 工作，一旦阅读全文

posted @ 2022-01-04 16:01 追こするれい的人阅读(79) 评论(0) 推荐(0) 编辑

Spark 集群安装部署

摘要：Spark 集群安装部署安装准备 Spark 集群和 Hadoop 类似，也是采用主从架构，Spark 中的主服务器进程就叫 Master（standalone 模式），从服务器进程叫 Worker Spark 集群规划如下： node-01：Master node-02：Worker node- 阅读全文

posted @ 2022-01-04 15:55 追こするれい的人阅读(87) 评论(0) 推荐(0) 编辑

01 2022 档案

公告

搜索

常用链接

我的标签

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论