随笔分类 -  大数据 / Hadoop体系

mapreduce
摘要:MapReduce是一种分布式计算模型,用于处理大规模数据集的并行计算。它是由Google首先提出,并在Apache Hadoop项目中得到广泛实现和应用的 MapReduce模型的优势在于它的可扩展性和容错性。它可以在大规模的计算集群上并行处理数据,提供高性能和高可靠性。 MapReduce适用于 阅读全文
posted @ 2023-05-15 23:02 黑逍逍 阅读(123) 评论(0) 推荐(0)
YARN
摘要:YARN(Yet Another Resource Negotiator)是Hadoop的资源管理器。 它是Hadoop生态系统中的一个核心组件,负责集群资源的调度和管理。 YARN的设计目标是将Hadoop从原始的MapReduce引擎扩展为一个通用的分布式计算平台,使得除了MapReduce之外 阅读全文
posted @ 2023-05-15 22:02 黑逍逍 阅读(171) 评论(0) 推荐(0)
HDFS?
摘要:Hadoop分布式文件系统(HDFS)是Apache Hadoop生态系统的核心组件之一,它是一种设计用于存储和处理超大规模数据集的分布式文件系统。 HDFS是一个分布式文件系统,它将大文件切分成多个小文件存储在不同的计算机节点上,因此可以存储大规模的非结构化数据,例如文本、图像、音频和视频等。 H 阅读全文
posted @ 2023-04-11 00:56 黑逍逍 阅读(308) 评论(0) 推荐(0)
快速入门.
摘要:Hadoop是一个开源的分布式计算平台,主要用于处理大规模数据集的存储和处理问题。它由Apache软件基金会开发和维护,是一个以Java编写的软件框架,提供了分布式文件系统(HDFS)和分布式计算框架(MapReduce)两个核心组件。 Hadoop的设计目标是处理大规模数据集,并且可以运行在廉价的 阅读全文
posted @ 2023-04-10 14:50 黑逍逍 阅读(30) 评论(0) 推荐(0)