2019 年 6月 21 日随笔档案 - NANhuang

分布式并行计算MapReduce

摘要： 1、用自己的话阐明Hadoop平台上HDFS和MapReduce的功能、工作原理和工作过程。 MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型，MapReduce的计算过程被封装的很好，我们只用使用Map和Reduce函数，所以对其整体的计算过程不是太清楚，同时MapReduc 阅读全文

posted @ 2019-06-21 09:32 NANhuang 阅读(126) 评论(0) 推荐(0) 编辑

分布式文件系统HDFS 练习

摘要： 1.目录操作：（1）、在HDFS中为hadoop用户创建一个用户目录（hadoop用户）：（2）、在用户目录下创建一个input目录：（3）、在HDFS的根目录下创建一个名称为input的目录（4）、删除HDFS根目录中的“input”目录： 2.文件操作：（1）、在本地Linux文件系统阅读全文

posted @ 2019-06-21 00:54 NANhuang 阅读(111) 评论(0) 推荐(0) 编辑

大数据应用期末总评

摘要： 1.将爬虫大作业产生的csv文件上传到HDFS 一、建立一个运行本案例的目录database，data并查看是否创建成功二、将本地文件csv上传到HDFS并查看是否上传成功三、查看文件： 2.对CSV文件进行预处理生成无标题文本文件二、预处理文件，将csv生成txt文件：一、预处理文件，将cs 阅读全文

posted @ 2019-06-21 00:17 NANhuang 阅读(408) 评论(0) 推荐(0) 编辑

NANhuang

导航

公告