数据导入时出现的问题:
## 在数据平台导入数据:
1、新建表,注意分隔符的选取,按照txt中的格式确定是',' 还是 ‘\t’ ;
2、在将csv转为txt之后,去掉表头, 将csv转为txt时可以选择直接将后缀进行替换,不会出错;(尽量不要使用将csv另存为txt的方法,这样会出错)
3、选择导入的txt文件,支持utf-8(用 sublime 转),tab作为分隔符 (建表要指明分隔符)
最大只能导入100M,最后选择是否追加
----------------------------------------------------------------------------------------------------------------------------------------------------------
MY 给我的数据,.csv格式的,之前在转为txt 时,存在一些不能识别的字符串,所以在导入BDP时有大量的重复的user_log_acct
因此,也可以直接将.csv格式的数据给复制到TXT,然后,分隔符替换为'tab' 就可以。
我有重新生成了一个表,这次是不含有重复的。
CSV与TXT没有本质上的区别
--------------------------------------------------------------------------------------------------------------------------------------------------
建表语句:
DROP TABLE IF EXISTS dev.dev_jiadian_user_yuge; CREATE TABLE dev.dev_jiadian_user_yuge( user_log_acct STRING comment 'user_pin', label DOUBLE comment 'jiadian prob' ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE;