摘要: 1、开启布隆过滤器 布隆过滤器用于判断一个元素是否在集合中 有一定的误判率和删除困难 如果使用布隆过滤器判断一个元素在集合中,那它可能不在 但如果判断一个元素不在集合中,那它肯定不在 布隆过滤器[1](Bloom Filter)是由布隆(Burton Howard Bloom)在1970年提出的。它 阅读全文
posted @ 2021-05-11 16:38 life_start 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 1、设置scan缓存 scan.setCaching(1000); 定义一次交互从服务端传输到客户端的行数 2、显示的指定列 scan.addColumn(cf,column) 只获取需要的列,减少传输的数据量,减少IO的消耗 3、使用完resultScanner后关闭,否则可能出现一段时间内服务端 阅读全文
posted @ 2021-05-11 16:35 life_start 阅读(221) 评论(0) 推荐(0) 编辑
摘要: 1、关闭WAL日志 在put数据api中关闭WAL 2、设置AutoFlush 3、预创建Region 4、延迟WAL刷新 5、通过HTablePool写入 阅读全文
posted @ 2021-05-11 16:34 life_start 阅读(98) 评论(0) 推荐(0) 编辑
摘要: zkclient Zookeeper客户端提供了基本的操作,比如,创建会话、创建节点、读取节点、更新数据、删除节点和检查节点是否存在等。但对于开发人员来说,Zookeeper提供的基本操纵还是有一些不足之处。本篇博客就聊聊这些不足之处和两款开源框架ZKClient和Curator。 Zookeepe 阅读全文
posted @ 2021-05-11 16:33 life_start 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 本篇文档使用kafka版本为:0.9.0.0 问题1、在现场项目中,kafka连接正常一直无数据? 1)通常是确认配置是否正确,包含任务配置,ip端口号; 2)查看topic offset:是否有新数据进来,数据是否被消费掉了, 3)然后检查kafka服务是否正常,查看服务是否有节点挂掉,topic 阅读全文
posted @ 2021-05-11 16:31 life_start 阅读(1286) 评论(0) 推荐(0) 编辑
摘要: 本篇文章主要记录一下Spark如何读写Hbase数据问题 1、Spark如何读取Hbase数据 spark原生API读取Hbase数据时,是使用一个partition加载一个Region的数据的。 此方式可能产生问题: 1)单个region太大,而spark每个partition资源是配置分配的,一 阅读全文
posted @ 2021-05-11 16:26 life_start 阅读(606) 评论(0) 推荐(0) 编辑