摘要: hbase hbck主要用来检查hbase集群region的状态以及对有问题的region进行修复。 hbase hbck :检查hbase所有表的一致性,如果正常,就会Print OK hbase hbck -details:检查hbase所有表的一致性,并且输出详细报告。 hbase hbck 阅读全文
posted @ 2020-01-09 14:34 sw_kong 阅读(3647) 评论(0) 推荐(0) 编辑
摘要: 大表x小表 这里可以利用mapjoin,SparkSQL中也有mapjoin或者使用广播变量能达到同样效果,此处描述HQL // 开启mapjoin并设定map表大小 set hive.auto.convert.join.noconditionaltask = true; set hive.auto 阅读全文
posted @ 2020-01-09 13:23 sw_kong 阅读(3205) 评论(0) 推荐(0) 编辑
摘要: bitSet对那种海量无符号的整数,去重,统计,判断元素是否存在之类的比较高效。bitSet不需要存储元素本身 但是面对其他情况,比如处理url,则需要使用哈希函数将URL处理为1bit,存储在BitSet中。但是,哈希函数发生冲突的概率比较高,若要降低冲突概率到1%,就要将BitSet的长度设置为 阅读全文
posted @ 2020-01-09 10:36 sw_kong 阅读(283) 评论(0) 推荐(0) 编辑