hadoop学习

作为一个开源框架,Hadoop让大数据处理变得更加简便而高效。学习Hadoop对于处理大规模数据集是一个非常有价值的技能。
Hadoop不仅仅是一个技术框架,更是一种处理大数据的思维方式。它通过将数据划分为多个小块,并在集群中的多个节点上并行处理,从而实现了对海量数据的快速处理。

Hadoop生态系统概览:

Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System(HDFS),它存储 Hadoop 集群中所有存储节点上的文件。HDFS的上一层是MapReduce 引擎,该引擎由 JobTrackers 和 TaskTrackers 组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。

 

HDFS:

对外部客户机而言,HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件,等等。

它有两种类型的节点:名称节点(NameNode)和数据节点(DataNode)。NameNode负责维护文件系统的元数据,DataNode则负责存储实际的数据。HDFS将文件分割成多个数据块,分布存储在不同的DataNode上。这种架构提高了系统的可靠性和可扩展性。

NemeNode:

NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件

DetaNode:

DataNode 也是一个通常在 HDFS实例中的单独机器上运行的软件

MapReduce编程模型

MapReduce模型包括两个阶段:Map阶段和Reduce阶段。在Map阶段,数据被转换成键值对形式进行处理;在Reduce阶段,对这些键值对进行归纳总结。理解这个模型对于进行大数据处理非常关键。

posted @ 2024-07-13 20:43  /张根源/  阅读(1)  评论(0编辑  收藏  举报