30作业

一：hadoop1.x和hadoop2.x区别

答：Hadoop1.x由MapReduce（数据计算和资源调度）、HDFS（数据存储）、Common（辅助工具组成）

　　Hadoop2.x中将MapReduce中的资源调度功能提取出来形成了一个新的模块，也就是Yarn。

　　这样可以降低耦合度，MapReduce负责运算数据，yarn负责资源调度

二：概念理解
　　（1）HDFS组成：
　　　　　　NameNode：

　　　　　　答：它可以存储文件的元数据（元数据就是数据属性，如文件名、大小、目录结构等）

　　　　　　DataNode：

　　　　　　答：可以在本地文件系统存储文件块数据，也可以进行数据的校验和

　　　　　　SecondaryNameNode：

　　　　　　答：用来监控HDFS状态的辅助后台程序，并且每隔一定时间会获取HDFS元数据的快照。

　　　　　　　　快照相当于每隔一段时间对元数据进行备份，如果再某个时间点数据发生问题，可以回滚，使用备份
　　（2）YARN组成
　　　　　　ResourceManager(处理客户端请求)

　　　　　　答：（1）处理客户端请求

　　　　　　　　（2）监控NodeManager

　　　　　　　　（3）启动和监控ApplicationMaster

　　　　　　　　（4）资源的分配和调度

　　　　　　NodeManager()

　　　　　　答：（1）管理单个节点上的资源

　　　　　　　　（2）处理来自ResourceManager和AppplicationMaster的命令

　　　　　　ApplicationMaster()

　　　　　　答：（1）负责数据的切分

　　　　　　　　（2）为应用程序申请资源并分配给内部的任务

　　　　　　　　（3）任务的监控和容错

　　　　　　Container
　　（3）MapReduce组成

　　　答：它分为Map阶段和Reduce阶段，Map阶段并行处理输入数据，Reduce阶段对Map结果进行收集汇总

三：本地运行Hadoop 案例

　　1、需求：（1）在hadoop-2.7.2文件下创建一个input文件夹

　　　　　　（2）将Hadoop的xml配置文件复制到input

　　　　　　（3）执行share目录下的MapReduce程序，找到input下所有包含dfs的文件

　　2、需求：（1）在hadoop-2.7.2文件夹下创建一个wcinput文件夹

　　　　　　（2）在wcinput文件夹下创建一个wc.input文件

　　　　　　（3）编辑wc文件

　　　　　　（4）查看wcinput目录下所有文件里每个单词出现的次数，将结果汇总到wcoutput文件夹里

四：伪分布式运行Hadoop 案例

　　1、需求：（1）在HDFS文件系统创建一个input文件夹

　　　　　　　（2）将测试文件内容上传到文件系统

　　　　　　　（3）查看上传的文件是否正确

　　　　　　（4）运行MapReduce程序

　　　　　　　（5）查看输出结果

　　　　　　　（6）将测试内容下载到本地

　　　　　　　（7）删除输出结果

posted @ 2020-03-09 21:50 拔丝小红薯阅读(124) 评论(0) 编辑收藏举报

刷新页面返回顶部

拔丝小红薯