|NO.Z.00026|——————————|BigDataEnd|——|Hadoop&HBase.V10|——|HBase.v10|协处理器|
一、Hbase 协处理器
### --- [HBase]
~~~ [HBase协处理器]
~~~ [HBase协处理器之Observer案例代码开发]
~~~ [HBase协处理器之案例验证]
### --- 协处理器概述
~~~ # 官方地址:
~~~ http://hbase.apache.org/book.html#cp
~~~ # 访问HBase的方式是使用scan或get获取数据,
~~~ 在获取到的数据上进行业务运算。但是在数据量非常大的时候,
~~~ 比如一个有上亿行及十万个列的数据集,再按常用的方式移动获取数据就会遇到性能问题。
~~~ 客户端也需要有强大的计算能力以及足够的内存来处理这么多的数据。
~~~ # 此时就可以考虑使用Coprocessor(协处理器)。
~~~ 将业务运算代码封装到Coprocessor中并在RegionServer上运行,
~~~ 即在数据实际存储位置执行,最后将运算结果返回到客户端。
~~~ 利用协处理器,用户可以编写运行在 HBase Server 端的代码。
### --- Hbase Coprocessor类似以下概念
~~~ # 触发器和存储过程:
~~~ 一个Observer Coprocessor有些类似于关系型数据库中的触发器,
~~~ 通过它我们可以在一些事件(如Get或是Scan)发生前后执行特定的代码。
~~~ Endpoint Coprocessor则类似于关系型数据库中的存储过程,
~~~ 因为它允许我们在RegionServer上直接对它存储的数据进行运算,而非是在客户端完成运算。
~~~ # MapReduce:
~~~ MapReduce的原则就是将运算移动到数据所处的节点。Coprocessor也是按照相同的原则去工作的。
~~~ # AOP:
~~~ 如果熟悉AOP的概念的话,
~~~ 可以将Coprocessor的执行过程视为在传递请求的过程中对请求进行了拦截,并执行了一些自定义代码。
### --- 协处理器类型
~~~ # Observer
~~~ 协处理器与触发器(trigger)类似:在一些特定事件发生时回调函数(也被称作钩子函数,hook)被执行。
~~~ 这些事件包括一些用户产生的事件,也包括服务器端内部自动产生的事件。
~~~ # 协处理器框架提供的接口如下
~~~ RegionObserver:用户可以用这种的处理器处理数据修改事件,它们与表的region联系紧密。
~~~ MasterObserver:可以被用作管理或DDL类型的操作,这些是集群级事件。
~~~ WALObserver:提供控制WAL的钩子函数
~~~ # Endpoint
~~~ 这类协处理器类似传统数据库中的存储过程,
~~~ 客户端可以调用这些 Endpoint 协处理器在Regionserver中执行一段代码,
~~~ 并将 RegionServer 端执行结果返回给客户端进一步处理。
### --- Endpoint常见用途
~~~ # 聚合操作
~~~ # 假设需要找出一张表中的最大数据,即 max 聚合操作,普通做法就是必须进行全表扫描,
~~~ 然后Client代码内遍历扫描结果,并执行求最大值的操作。
~~~ 这种方式存在的弊端是无法利用底层集群的并发运算能力,
~~~ 把所有计算都集中到 Client 端执行,效率低下。
~~~ # 使用Endpoint Coprocessor,用户可以将求最大值的代码部署到 HBase RegionServer 端,
~~~ HBase会利用集群中多个节点的优势来并发执行求最大值的操作。
~~~ 也就是在每个 Region 范围内执行求最大值的代码,
~~~ 将每个 Region 的最大值在 Region Server 端计算出,仅仅将该 max 值返回给Client。
~~~ 在Client进一步将多个 Region 的最大值汇总进一步找到全局的最大值。
~~~ # Endpoint Coprocessor的应用我们后续可以借助于Phoenix非常容易就能实现。
~~~ 针对Hbase数据集进行聚合运算直接使用SQL语句就能搞定。
二、Observer 案例
### --- 需求:
~~~ 通过协处理器Observer实现Hbase当中t1表插入数据,指定的另一张表t2也需要插入相对应的数据。
hbase(main):010:0> create 't1','info'
hbase(main):011:0> create 't2','info'
### --- 实现思路
~~~ 通过Observer协处理器捕捉到t1插入数据时,将数据复制一份并保存到t2表中
三、开发步骤
### --- 编写Observer协处理器
package com.yanqi.hbash.processor;
import org.apache.hadoop.hbase.Cell;
import org.apache.hadoop.hbase.TableName;
import org.apache.hadoop.hbase.client.Durability;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.HTableInterface;
import org.apache.hadoop.hbase.client.Put;
import org.apache.hadoop.hbase.coprocessor.BaseRegionObserver;
import org.apache.hadoop.hbase.coprocessor.ObserverContext;
import org.apache.hadoop.hbase.coprocessor.RegionCoprocessorEnvironment;
import org.apache.hadoop.hbase.regionserver.wal.WALEdit;
import java.io.IOException;
//重写prePut方法,监听到向t1表插入数据时,执行向t2表插入数据的代码
public class MyProcessor extends BaseRegionObserver {
@Override
public void prePut(ObserverContext<RegionCoprocessorEnvironment> ce, Put put, WALEdit edit, Durability durability) throws IOException {
//把自己需要执行的逻辑定义在此处,向t2表插入数据,数据具体是什么内容与Put一样
//获取t2表table对象
HTableInterface table = ce.getEnvironment().getTable(TableName.valueOf("t2"));
//解析t1表的插入对象put
Cell nameCell = put.get("info".getBytes(), "name".getBytes()).get(0);
//table对象.put
Put put1 = new Put(put.getRow());
put1.add(nameCell);
table.put(put);
//执行向t2表插入数据
table.close();
}
}
### --- 添加依赖
<!-- https://mvnrepository.com/artifact/org.apache.hbase/hbase-server -->
<dependency>
<groupId>org.apache.hbase</groupId>
<artifactId>hbase-server</artifactId>
<version>1.3.1</version>
</dependency>
### --- 打成Jar包,上传HDFS
[root@linux121 ~]# cd hbase/
[root@linux121 hbase]# mv hbase_client-1.0-SNAPSHOT.jar processor.jar
[root@linux121 hbase]# hdfs dfs -mkdir -p /processor
[root@linux121 hbase]# hdfs dfs -put processor.jar /processor
### --- 挂载协处理器
[root@linux121 ~]# hbase shell
hbase(main):001:0> describe 't1'
{NAME => 'info', BLOOMFILTER => 'ROW', VERSIONS => '1', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIO
NS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', REPLICATION_SCOPE => '0'}
hbase(main):002:0> alter 't1',METHOD =>'table_att','Coprocessor'=>'hdfs://linux121:9000/processor/processor.jar|com.yanqi.hbash.processor.MyProcessor|1001|'
~~~ # 再次查看't1'表,
hbase(main):003:0> describe 't1'
t1, {TABLE_ATTRIBUTES => {coprocessor$1 => 'hdfs://linux121:9000/processor/processor.jar|com.yanqi.hbash.processor.MyProcessor|1001|'}
COLUMN FAMILIES DESCRIPTION
{NAME => 'info', BLOOMFILTER => 'ROW', VERSIONS => '1', IN_MEMORY => 'false', KEEP_DELETED_CELLS => 'FALSE', DATA_BLOCK_ENCODING => 'NONE', TTL => 'FOREVER', COMPRESSION => 'NONE', MIN_VERSIO
NS => '0', BLOCKCACHE => 'true', BLOCKSIZE => '65536', REPLICATION_SCOPE => '0'}
### --- 验证协处理器
~~~ # 向t1表中插入数据(shell方式验证)
hbase(main):004:0> put 't1','rk1','info:name','lisi'
~~~ # 查看t2表中数据是否同步过来
hbase(main):010:0> scan 't1'
ROW COLUMN+CELL
rk1 column=info:name, timestamp=1630594983660, value=lisi
hbase(main):011:0> scan 't2'
ROW COLUMN+CELL
rk1 column=info:name, timestamp=1630594983630, value=lisi
### --- 卸载协处理器
hbase(main):007:0> disable 't1'
hbase(main):008:0> alter 't1',METHOD=>'table_att_unset',NAME=>'coprocessor$1'
hbase(main):009:0> enable 't2'
Walter Savage Landor:strove with none,for none was worth my strife.Nature I loved and, next to Nature, Art:I warm'd both hands before the fire of life.It sinks, and I am ready to depart
——W.S.Landor
分类:
bdv010-hbase
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 记一次.NET内存居高不下排查解决与启示
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· DeepSeek 开源周回顾「GitHub 热点速览」