01 2022 档案

摘要:Flume Source 详解 Source 类型 Flume 支持从不同的 Source(数据源)采集数据,如下: 数据源描述 Avro Source 通过监听一个网络端口来接受数据,而且接受的数据必须是使用avro序列化框架序列化后的数据; Thrift Source 监听Thrift端口并从外 阅读全文
posted @ 2022-01-28 23:55 追こするれい的人 阅读(167) 评论(0) 推荐(0) 编辑
摘要:核心概念 Agent Flume 最核心的角色就是 Agent。Flume 数据采集系统是由一个个 Agent 连接起来的数据传输通道 对于每个 Agent来 说就是一个独立的守护进程(JVM),它负责从数据源接收数据,并发送到下一个目的地 Agent 内部有三个重要的组件:Source,Chann 阅读全文
posted @ 2022-01-28 21:43 追こするれい的人 阅读(148) 评论(0) 推荐(0) 编辑
摘要:Flume 是什么 Flume 是一个开源的分布式数据收集框架,可以提供一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统 当前 Flume 有两个版本 Flume 0.9X 版本的统称 Flume-og,Flume1.X 版本的统称 Flume-ng。由于 Flume-ng 经过重大重 阅读全文
posted @ 2022-01-28 20:47 追こするれい的人 阅读(182) 评论(0) 推荐(0) 编辑
摘要:为什么需要二级索引 HBase 一个令人惋惜的地方,就是不支持二级索引。因此,在实际项目开发中有一些补充方案来填补 HBase 的二级索引能力的缺陷。 HBase 系统单纯从解决大数据实时读写问题角度出发,重点关注于分布式存储的扩展性、容错性、读写性能等方面,为此也牺牲了很多传统关系型数据库的功能, 阅读全文
posted @ 2022-01-28 20:42 追こするれい的人 阅读(247) 评论(0) 推荐(0) 编辑
摘要:HBase Region 拆分与合并 Region 拆分 Region 自动拆分 HBase Region 的自动拆分有 6 种触发策略,如下: ConstantSizeRegionSplitPolicy :按照固定大小来拆分 Region 策略 IncreasingToUpperBoundRegi 阅读全文
posted @ 2022-01-28 20:28 追こするれい的人 阅读(431) 评论(0) 推荐(0) 编辑
摘要:何为 Compaction 通过 MemStore 的 Flush 机制会生成一个个 HFile 小文件,HFile 小文件如果数量太多会影响读取性能。为了提高读取效率,就需要通过 Compaction 机制将小文件 HFile 合并成大文件,提升读取效率。 Compaction 的作用 在 HBa 阅读全文
posted @ 2022-01-28 20:10 追こするれい的人 阅读(634) 评论(0) 推荐(0) 编辑
摘要:什么是 MemStore Flush 机制 Region 的 写缓存 MemStore 将数据写入到磁盘中并产生 HFile 文件的过程叫做 MemStore Flush 机制 触发 MemStore Flush 机制的情况 客户端手工触发 Flush 机制 执行 Flush 命令将 Table 表 阅读全文
posted @ 2022-01-28 19:56 追こするれい的人 阅读(145) 评论(0) 推荐(0) 编辑
摘要:HBase 读写数据流程 HBase 读数据流程 客户端创建 Connection 连接对象,通过加载的 hbase-site.xml 配置文件获得 zk 集群地址 客户端连接到 zk 集群然后去读取 zk 目录 /hbase/meta-region-server 的配置信息,找到 meta 表存放 阅读全文
posted @ 2022-01-13 20:24 追こするれい的人 阅读(134) 评论(0) 推荐(0) 编辑
摘要:HRegionServer 内部机制 WALs(写日志) WALs 即 Write Ahead Log,在早期版本中称为 HLog,它是 HDFS 上的一个文件,所有写操作都会先保证将数据写入这个 Log 文件后(类似于 Redis 的 AOF 文件),才会真正更新 MemStore(写缓存),最后 阅读全文
posted @ 2022-01-13 20:04 追こするれい的人 阅读(91) 评论(0) 推荐(0) 编辑
摘要:HBase RowKey 设计 设计 RowKey 的目的 HBase 中一条数据的唯一标识就是 RowKey,类似于关系型数据库中的主键,HBase 中的数据是根据 Row Key 的字典顺序来排序的。 那么这条数据存储于哪个分区,取决于 Rowkey 处于哪一个预分区的区间内,设计 Rowkey 阅读全文
posted @ 2022-01-13 19:35 追こするれい的人 阅读(120) 评论(0) 推荐(0) 编辑
摘要:HBase 命令行客户端过滤器、 在 HBase 中,get 和 scan 命令都可以使用过滤器来设置输出的范围,类似 SQL 里的 Where 查询条件。 show_filter 命令(查看 HBase 支持的过滤器类型) hbase(main):016:0> show_filters ### 行 阅读全文
posted @ 2022-01-13 19:12 追こするれい的人 阅读(317) 评论(0) 推荐(0) 编辑
摘要:HBase 命令行客户端操作 启动 HBase 命令行客户端 [root@node-01 bin]# hbase shell HBase 命令行帮助 hbase(main):004:0> help 通用命令 whoami 命令(查看当前用户) hbase(main):004:0> whoami st 阅读全文
posted @ 2022-01-13 18:58 追こするれい的人 阅读(404) 评论(0) 推荐(0) 编辑
摘要:HBase 数据模型 逻辑视图 HBase 逻辑视图(表结构)如下: 基本概念术语 Table(表) HBase 一个表由多行组成 Row Key(行键) HBase 中表中一行的唯一标识(类似于关系表中的主键)。一张表中所有行都按照行键(rowkey)的字典序由小到大排序。 Row(行) HBas 阅读全文
posted @ 2022-01-13 18:37 追こするれい的人 阅读(342) 评论(0) 推荐(0) 编辑
摘要:Client 客户端包含访问 HBase 的接口,同时在缓存中维护着已经访问过的 Region 位置信息,用来加快后续数据访问过程 Zookeeper 在 HBase 系统中,ZooKeeper 扮演着非常重要的角色 实现 HMaster 高可用:通常情况下系统中只有一个 HMaster 工作,一旦 阅读全文
posted @ 2022-01-04 16:01 追こするれい的人 阅读(79) 评论(0) 推荐(0) 编辑
摘要:Spark 集群安装部署 安装准备 Spark 集群和 Hadoop 类似,也是采用主从架构,Spark 中的主服务器进程就叫 Master(standalone 模式),从服务器进程叫 Worker Spark 集群规划如下: node-01:Master node-02:Worker node- 阅读全文
posted @ 2022-01-04 15:55 追こするれい的人 阅读(87) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示