数据导入时出现的问题:

## 在数据平台导入数据:
1、新建表,注意分隔符的选取,按照txt中的格式确定是','   还是 ‘\t’ ;

2、在将csv转为txt之后,去掉表头, 将csv转为txt时可以选择直接将后缀进行替换,不会出错;(尽量不要使用将csv另存为txt的方法,这样会出错)

3、选择导入的txt文件,支持utf-8(用 sublime 转),tab作为分隔符 (建表要指明分隔符)
最大只能导入100M,最后选择是否追加

----------------------------------------------------------------------------------------------------------------------------------------------------------

MY 给我的数据,.csv格式的,之前在转为txt 时,存在一些不能识别的字符串,所以在导入BDP时有大量的重复的user_log_acct
因此,也可以直接将.csv格式的数据给复制到TXT,然后,分隔符替换为'tab' 就可以。
我有重新生成了一个表,这次是不含有重复的。

CSV与TXT没有本质上的区别

--------------------------------------------------------------------------------------------------------------------------------------------------

建表语句:

DROP TABLE IF EXISTS dev.dev_jiadian_user_yuge;

CREATE TABLE dev.dev_jiadian_user_yuge(
    user_log_acct      STRING comment 'user_pin',
    label         DOUBLE comment 'jiadian prob'
    
) 
ROW FORMAT DELIMITED        
FIELDS TERMINATED BY '\t'

STORED AS TEXTFILE;

 

 

posted @ 2018-08-31 20:17  静悟生慧  阅读(371)  评论(0编辑  收藏  举报