摘要: 1 本地模式 0.7版本后Hive开始支持任务执行选择本地模式(local mode)。 大多数的Hadoop job是需要hadoop提供的完整的可扩展性来处理大数据的。不过,有时hive的输入数据量是非常小的。在这种情况下,为查询出发执行任务的时间消耗可能会比实际job的执行时间要多的多。对于大 阅读全文
posted @ 2017-11-22 23:15 强迫疒 阅读(657) 评论(0) 推荐(0) 编辑
摘要: 1 什么是分桶 上一篇说到了分区,分区中的数据可以被进一步拆分成桶,bucket。不同于分区对列直接进行拆分,桶往往使用列的哈希值进行数据采样。在分区数量过于庞大以至于可能导致文件系统崩溃时,建议使用桶。 hive使用对分桶所用的值进行hash,并用hash结果除以桶的个数做取余运算的方式来分桶,保 阅读全文
posted @ 2017-11-22 22:34 强迫疒 阅读(531) 评论(0) 推荐(0) 编辑