摘要: hive 分桶与便签: 1,分桶表是对列值进行 hash 的方式,将不同的数据放到不同的文件之中存储 2,对 hive中每一个表,分区都可以进行分桶 3,由列的hash值除以桶的个数来决定每条数据划分到哪个桶之中 4,适用于数据抽样,与 map-join开启分桶机制 # 可以通过 mapred.reduce.tasks 设置 reduce 个数,不推荐 # 一次作业产生的... 阅读全文
posted @ 2019-07-23 23:36 十七楼的羊 阅读(445) 评论(0) 推荐(0) 编辑
摘要: public InputSplit[] getSplits(JobConf job, int numSplits) throws IOException { StopWatch sw = new StopWatch().start(); // 得到文件列表 输入源 FileStatus[] file 阅读全文
posted @ 2019-07-23 23:07 十七楼的羊 阅读(393) 评论(0) 推荐(0) 编辑