01 2013 档案
摘要:当生成完成一个HFile后,如果你不想因为出错而重做数据,建议在bulkimport之前,查看一下hfilehbase提供了一个查看HFile属性的包org.apache.hadoop.hbase.io.hfile.HFile$hbase org.apache.hadoop.hbase.io.hfile.HFileusage: HFile [-a] [-b] [-e] [-f <arg>] [-j] [-k] [-m] [-p] [-r <arg>] [-s <arg>] [-v]-a,--checkfamily Enable family check-b,
阅读全文
摘要:通过-D设置的参数在streaming中可以通过读取系统参数的方式获得,这里必须把 "."替换成"_";启动参数设置 -DSPLIT.PV.THRESHOLD=600python文件中加入如下代码:tmp = os.popen('echo $SPLIT_PV_THRESHOLD').readlines()Threshold = int(tmp[0])
阅读全文
摘要:Hbase数据导入是在日常工作中经常要处理的问题,在数据量超大时,有事会成为一个非常棘手的问题。通常我们选用BulkImport的方式完成数据的批量导入:一般其情况下这是非常高效的处理方式:这种方式在预处理(即生成HFile)时不需要对HBase本身做IO操作,导入方式是一个mv操作,并可以实现多线程导入然而在处理依赖原数据的插入操作时,生成HFile时需要一次get操作,尽管在mapreduce中,将靠近的rowkey放在一个reduce中处理,但是get操作任然会受到各种不可预知的因素影响,例如regionserver本身的问题等,这使得生成HFile的时间成为不可预知的因素。针对这类问题
阅读全文
浙公网安备 33010602011771号