2019年11月13日

数据存入hive数据表之前对.csv(数据集)文件的预处理以及数据的上传

摘要: 对于数据集文件,在将其中的数据存入hive之前,需要将数据进行预处理。 1.删除文件第一行记录,即字段名称 sed -i '1d' raw_user //1d表示删除第1行,同理,3d表示删除第3行,nd表示删除第n行 2.对字段进行预处理 主要是通过sh文件对csv文件进行字段的逐行处理,然后将处 阅读全文

posted @ 2019-11-13 19:12 宥宁 阅读(1344) 评论(0) 推荐(0) 编辑

课堂测试-数据清洗1

摘要: 题目: Result文件数据说明: Ip:106.39.41.166,(城市) Date:10/Nov/2016:00:01:02 +0800,(日期) Day:10,(天数) Traffic: 54 ,(流量) Type: video,(类型:视频video或文章article) Id: 8701 阅读全文

posted @ 2019-11-13 18:20 宥宁 阅读(256) 评论(0) 推荐(0) 编辑

导航