摘要: 1.将爬虫大作业产生的csv文件上传到HDFS 此处选取的是AllSinger.csv文件,共计35084条数据 创建文件夹 启动hadoop 在hdfs上创建文件 将文件上存到hdfs 2.对CSV文件进行预处理生成无标题文本文件 编辑pre_deal.sh文件进行数据的取舍处理 使得pre_de 阅读全文
posted @ 2019-06-13 16:28 huangzhenjie 阅读(276) 评论(0) 推荐(0) 编辑