摘要:
hbase hbck主要用来检查hbase集群region的状态以及对有问题的region进行修复。 hbase hbck :检查hbase所有表的一致性,如果正常,就会Print OK hbase hbck -details:检查hbase所有表的一致性,并且输出详细报告。 hbase hbck 阅读全文
摘要:
大表x小表 这里可以利用mapjoin,SparkSQL中也有mapjoin或者使用广播变量能达到同样效果,此处描述HQL // 开启mapjoin并设定map表大小 set hive.auto.convert.join.noconditionaltask = true; set hive.auto 阅读全文
摘要:
bitSet对那种海量无符号的整数,去重,统计,判断元素是否存在之类的比较高效。bitSet不需要存储元素本身 但是面对其他情况,比如处理url,则需要使用哈希函数将URL处理为1bit,存储在BitSet中。但是,哈希函数发生冲突的概率比较高,若要降低冲突概率到1%,就要将BitSet的长度设置为 阅读全文