2013 年 11月 8 日随笔档案 - JueFan_C

2013年11月8日

Hive中Bucket的应用

摘要：网友南京-李先森给了他收集的一些资料，如下： Buckets 对指定列计算 hash，根据 hash 值切分数据，目的是为了并行，每一个 Bucket 对应一个文件。如将 user 列分散至 32 个 bucket，首先对 user 列的值计算 hash，对应 hash 值为 0 的 HDFS 目录为：/ warehouse /xiaojun/dt =20100801/ctry=US/part-00000；hash 值为 20 的 HDFS 目录为：/ warehouse /xiaojun/dt =20100801/ctry=US/part-00020 这段描述是说用了bucket之后... 阅读全文

posted @ 2013-11-08 16:09 JueFan_C 阅读(2978) 评论(0) 推荐(0) 编辑

陈饭饭

Hive中Bucket的应用

导航

公告