大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS）

我们之前导入的都是全量导入，一次性全部导入，但是实际开发并不是这样，例如web端进行用户注册，mysql就增加了一条数据，但是HDFS中的数据并没有进行更新，但是又再全部导入一次又完全没有必要。

所以，sqoop提供了增量导入的方法。

1、数据准备：

2、将其先用全量导入到HDFS中去

3、先在mysql中添加一条数据，在使用命令进行追加

 #指定字段的取值范围，增量到数据(指的是Mysql增加了一条或多条数据，追加到HDFS中去,
 如果想追加到hive本来的数据中去就把路径换成hive的路径)
 # 适用于表不断的有新数据插入
 
sqoop import \
--connect jdbc:mysql://master:3306/student \
--username root \
--password 123456 \
--table student_zeng \
--target-dir /user/hive/warehouse/sqlhivetest.db/student_zeng/ \
--split-by id \
-m 1 \
--fields-terminated-by '\t' \
--incremental append \
--check-column id \
--last-value 3

4、根据时间进行大量追加（不去重）

 1 追加  
 2 sqoop import \
 3 --connect jdbc:mysql://master:3306/student \
 4 --username root \
 5 --password 123456 \
 6 --target-dir /user/hive/warehouse/sqlhivetest.db/student_zeng/ \
 7 --table student_zeng \
 8 --fields-terminated-by '\t' \
 9 --check-column last_mod \
10 --incremental lastmodified \
11 --last-value "2019-12-19 20:57:16" \
12 -m 1 \
13 --append

结果：但是我们发现有两个重复的字段

5、往往开发中需要进行去重操作：sqoop提供了一个方法进行去重，内部是先开一个map任务将数据导入进来，然后再开一个map任务根据指定的字段进行合并去重

#根据业务可能需要去重  -merge-key 就是做这个事

sqoop import \
--connect jdbc:mysql://master:3306/student \
--username root \
--password 123456 \
--target-dir /user/hive/warehouse/sqlhivetest.db/student_zeng/ \
--table student_zeng \
--fields-terminated-by '\t' \
--check-column last_mod \
--incremental lastmodified \
--last-value "2019-12-19 22:00:09" \
-m 1 \
-merge-key id

结果：

之前有重复的也进行合并去重操作，最后生成一个结果。

posted @ 2019-12-22 14:00 Xiaohu_BigData 阅读(506) 评论(0) 编辑收藏举报

刷新页面返回顶部

Xiaohu_BigData

大数据之路week07--day07 （Sqoop 从mysql增量导入到HDFS）

公告