2017 年 11月 22 日随笔档案 - 强迫疒

2017年11月22日

摘要： 1 本地模式 0.7版本后Hive开始支持任务执行选择本地模式(local mode)。大多数的Hadoop job是需要hadoop提供的完整的可扩展性来处理大数据的。不过，有时hive的输入数据量是非常小的。在这种情况下，为查询出发执行任务的时间消耗可能会比实际job的执行时间要多的多。对于大阅读全文

posted @ 2017-11-22 23:15 强迫疒阅读(657) 评论(0) 推荐(0) 编辑

Hive入门（三）分桶

摘要： 1 什么是分桶上一篇说到了分区，分区中的数据可以被进一步拆分成桶，bucket。不同于分区对列直接进行拆分，桶往往使用列的哈希值进行数据采样。在分区数量过于庞大以至于可能导致文件系统崩溃时，建议使用桶。 hive使用对分桶所用的值进行hash，并用hash结果除以桶的个数做取余运算的方式来分桶，保阅读全文

posted @ 2017-11-22 22:34 强迫疒阅读(531) 评论(0) 推荐(0) 编辑

强迫疒

公告