2018 年 11月 16 日随笔档案 - wang_zai

2018年11月16日

摘要：作用：在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部分数据，在对应的partition里面去查找就可以，减少查询时间。在Hive Select查询中一般会扫描整个表内容，会消耗很多时间做没必要的工作。有时候只需要扫描表中关心的一部阅读全文

posted @ 2018-11-16 17:05 wang_zai 阅读(4373) 评论(0) 推荐(0) 编辑

把HDFS上的数据导入到Hive中

摘要： 1. 首先下载测试数据，数据也可以创建 http://files.grouplens.org/datasets/movielens/ml-latest-small.zip 2. 数据类型与字段名称 movies.csv（电影元数据） movieId,title,genres ratings.csv（阅读全文

posted @ 2018-11-16 17:00 wang_zai 阅读(22074) 评论(0) 推荐(0) 编辑

把kafka数据从hbase迁移到hdfs，并按天加载到hive表(hbase与hadoop为不同集群)

摘要：需求：由于我们用的阿里云Hbase，按存储收费，现在需要把kafka的数据直接同步到自己搭建的hadoop集群上，(kafka和hadoop集群在同一个局域网)，然后对接到hive表中去，表按每天做分区一、首先查看kafka最小偏移量（offset）显示三个partition最小offset都为阅读全文

posted @ 2018-11-16 16:38 wang_zai 阅读(1352) 评论(1) 推荐(0) 编辑

wang_zai

公告