快速入门. - 黑逍逍

Hadoop是一个开源的分布式计算平台，主要用于处理大规模数据集的存储和处理问题。它由Apache软件基金会开发和维护，是一个以Java编写的软件框架，提供了分布式文件系统（HDFS）和分布式计算框架（MapReduce）两个核心组件。

Hadoop的设计目标是处理大规模数据集，并且可以运行在廉价的硬件上。它采用了分布式存储和计算的方式，将数据和计算任务分散到集群中的多个节点上，以提高数据处理和计算效率。

Hadoop的主要优势在于其高可靠性、高容错性、高扩展性和高性能，可以支持PB级别的数据处理任务。

Hadoop框架的两个核心组件是HDFS和MapReduce。

　　HDFS是一个分布式文件系统，可以在大规模集群上存储PB级别的数据。

　　MapReduce则是一个分布式计算框架，用于将计算任务分解为多个小的子任务，并在分布式环境中进行计算，最终将计算结果合并在一起。

HDFS：

分布式文件系统（Distributed File System，DFS）是一种支持在多台计算机上存储和管理文件的文件系统。在一个DFS中，文件被分成多个块，并且这些块被存储在多个计算机节点上，因此，文件的存储和访问可以并行地在多个计算机节点上进行，从而提高了文件系统的性能和可靠性。

Hadoop Distributed File System（HDFS）是一种基于DFS的分布式文件系统，是Apache Hadoop的核心组件之一。HDFS的设计目标是在廉价硬件上存储大量数据，并且能够提供高吞吐量的数据访问。在HDFS中，文件被分成多个块，每个块都会被复制到多个计算机节点上进行备份，以提高文件的可靠性和容错能力。同时，HDFS还提供了访问控制、命名空间管理和数据一致性等基本的文件系统功能

MapReduce：

分布式计算框架是一种能够将大规模数据并行处理的计算框架。分布式计算框架的主要目的是充分利用多台计算机集群的计算能力，将计算任务分解成若干个小任务，并且在多台计算机上同时进行计算，以提高计算效率。

MapReduce是一种分布式计算框架，它采用了一种将计算任务分解成多个独立的、可并行处理的任务的思想，然后在多个计算节点上并行处理这些任务，并将结果进行合并的方法。通过Hadoop MapReduce，可以在成百上千台计算机上高效地处理PB级别的数据。

MapReduce是批处理的吗

是的，MapReduce是一种批处理模型。

它将输入数据划分成若干个小块，分别进行并行处理。每个小块的处理都是独立的，可以在不同的机器上并行执行。

在MapReduce模型中，数据被分为多个分片，每个分片由Map阶段进行处理，Map阶段将数据进行过滤、排序、分组等操作，然后将结果输出到中间文件。接着，Reduce阶段将中间文件中相同key的结果进行合并，并输出最终结果。

由于MapReduce是基于磁盘的批处理模型，因此无法满足对实时性要求较高的场景。而Spark的流处理模块可以满足实时性要求较高的场景

posted on 2023-04-10 14:50 黑逍逍阅读(31) 评论(0) 收藏举报

刷新页面返回顶部

公告