Sqoop葵花宝典
Sqoop葵花宝典
基于Sqoop1.x
场景
导入流程
导出流程
字段说明
字段 | MySQL类型 | Hive类型 |
---|---|---|
id | int | int |
name | varchar(100) | string |
desc | varchar(255) | string |
导入
普通表
三种表建表语句类似,只是文件格式变化。
CREATE TABLE user_parquet(
id int,
name string,
desc string
)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001'
STORED AS parquet;
txt格式
sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--hive-import \
--delete-target-dir \
--m 1 \
--hive-database test \
--hive-table user_text
注意: txt格式可以不需要使用hive-database
,直接使用hive-table
即可(database.tablename
的形式)
parquet格式
sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--hive-import \
--delete-target-dir \
--m 1 \
--hive-database test \
--hive-table user_parquet \
--as-parquetfile
注意: 如果是parquet格式,sqoop脚本需要使用hive-database
、as-parquetfile
参数。
orc格式
sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--delete-target-dir \
--m 1 \
--hcatalog-database test \
--hcatalog-table user_orc \
注意: 需要使用hcatalog-database
、hcatalog-table
参数来进行导入。
分区表
CREATE TABLE user_parquet_p(
id int,
name string,
desc string
)
PARTITIONED BY (part_dt string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001'
STORED AS parquet;
txt格式
sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--hive-import \
--delete-target-dir \
--m 1 \
--hive-database test \
--hive-table user_text_p \
--hive-partition-key part_dt \
--hive-partition-value '20190314'
注意: 分区表需要增加hive-partition-key
、hive-partition-value
来指定导入的分区,但是不支持多分区。
也可以通过orc这样方式使用hcatalog来进行导入。
parquet格式
暂时没有找到导入的方式。
orc格式
sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--delete-target-dir \
--m 1 \
--hcatalog-database test \
--hcatalog-table user_orc_p \
--hive-partition-key 'part_dt' \
--hive-partition-value '20190314'
或者通过如下的方式:
sqoop import \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--fields-terminated-by '\001' \
--delete-target-dir \
--m 1 \
--hcatalog-database test \
--hcatalog-table user_orc_p \
--hcatalog-partition-keys 'part_dt' \
--hcatalog-partition-values '20190314'
注意: 通过hcatalog-database
、hcatalog-table
、hive-partition-key
、hive-partition-value
四个参数导入数据到单个分区。或者通过hcatalog-partition-keys
、hcatalog-partition-values
参数指定多个分区(通过逗号分隔)
导出
普通表
txt格式
sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--export-dir /apps/hive/warehouse/test.db/user_text \
--input-fields-terminated-by '\001'
或者下面的方式:
sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_text
注意: export-dir
为hive表在hdfs的存储路径。发现使hcatalog-database
、hcatalog-table
参数也可以。
parquet格式
sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_parquet
注意: 通export-dir
指定hive表在hdfs的存储路径无法导出,需要通过hcatalog-database
、hcatalog-table
参数。
orc格式
sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_orc
注意: 通export-dir
指定hive表在hdfs的存储路径无法导出,需要通过hcatalog-database
、hcatalog-table
参数。
分区表
txt格式
sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--export-dir /apps/hive/warehouse/test.db/user_text_p/part_dt=20190314 \
--input-fields-terminated-by '\001'
或者通过如下的方式导出所有分区的数据:
sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_text_p
注意: 通过export-dir
指定hive表在hdfs的存储路径时需要包含分区目录,只能导出一个分区的数据。通过hcatalog-database
、hcatalog-table
参数可以导出所有分区的数据。
parquet格式
sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_parquet_p
注意: 通过export-dir
指定hive表在hdfs的存储路径时包含分区目录也无法导出数据。只能通过hcatalog-database
、hcatalog-table
参数导出所有分区的数据。此时,不需要指定字段分割符。
orc格式
sqoop export \
--connect 'jdbc:mysql://10.252.165.54:15025/test?useUnicode=true&characterEncoding=utf-8' \
--username hdp \
--password 'hdp!QAZxCDE#' \
--table user1 \
--hcatalog-database test \
--hcatalog-table user_orc_p
注意: 通过export-dir
指定hive表在hdfs的存储路径时包含分区目录也无法导出数据。只能通过hcatalog-database
、hcatalog-table
参数导出所有分区的数据。此时,不需要指定字段分割符。
其他
导出不像导入那么强大,不能指定query
、where
,但可以通过columns
参数限定导出的列。
问题
多字符分割
sqoop不支持多字符分割,如果指定多字符,则会默认按照第一个字符作为分割符。
导入多分区
sqoop导入只支持一个分区,不支持多分区导入。