06 2019 档案

摘要:豆瓣电影网-《复仇者联盟4》影评 一:将爬虫大作业产生的csv文件上传到HDFS 首先我把爬到的评论先进行预处理 然后上传到HDFS里面 查看前5条评论,看看是否上传成功 二:对数据进行分割处理 执行deal.sh 对数据进行分割预处理并输出形成lht.txt 三.把hdfs中的文本文件最终导入到数 阅读全文
posted @ 2019-06-17 15:30 Bigdickdick 阅读(278) 评论(0) 推荐(0) 编辑
摘要:分布式并行计算MapReduce 一、用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 1.HDFS: Hadoop Distributed File System Hadoop分布式文件系统 1.1功能: 1.兼容廉价的硬件设备。2.流数据的读写。3.大数据 阅读全文
posted @ 2019-06-11 20:49 Bigdickdick 阅读(478) 评论(0) 推荐(0) 编辑