第四周学习总结

这周去把电脑拿去重装了一下,C盘空间太满了,以前下软件没有太注意附带的软件。

又开始新一轮的软件安装,还好以前写了一些安装教程,遇到的困难大部分都得到了解决,以后安装软件一定要多写写博客。

继续看了看Hadoop的相关知识。

Hadoop的三大组件:

  • HDFS

Hadoop Distribute File System,Hadoop 分布式文件系统,是 Hadoop 核心组成,也是谷歌GFS的开源实现。分布式文件系统横跨多台计算机,在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。

HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储。

  • MapReduce

Hadoop的MapReduce是对google三大论文的MapReduce的开源实现,实际上是一种编程模型,是一个分布式的计算框架,用于处理海量数据的运算。

MapReduce充分利用了并行处理的优势以及“分而治之”的核心思想,任务过程分了两个处理阶段:

Map阶段:此阶段主要体现在“分”,即把复杂的任务分解成若干个简单的任务后并行处理,任务之间互不依赖;

Reduce阶段:此阶段的主要作用就是“合”,即对map阶段的结果进行全局汇总。

  • YARN

Yet Another Resource Negotiator,Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。通过YARN,不同计算框架可以共享同一个HDFS集群上的数据,享受整体的资源调度。

posted @ 2022-07-24 21:59  今天又双叒叕在敲代码  阅读(22)  评论(0编辑  收藏  举报