随笔- 246 文章- 1 评论- 0 阅读- 2069

hadoop学习

作为一个开源框架，Hadoop让大数据处理变得更加简便而高效。学习Hadoop对于处理大规模数据集是一个非常有价值的技能。
Hadoop不仅仅是一个技术框架，更是一种处理大数据的思维方式。它通过将数据划分为多个小块，并在集群中的多个节点上并行处理，从而实现了对海量数据的快速处理。

Hadoop生态系统概览：

Hadoop 由许多元素构成。其最底部是 Hadoop Distributed File System（HDFS），它存储 Hadoop 集群中所有存储节点上的文件。HDFS的上一层是MapReduce 引擎，该引擎由 JobTrackers 和 TaskTrackers 组成。通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程，以及数据仓库工具Hive和分布式数据库Hbase的介绍，基本涵盖了Hadoop分布式平台的所有技术核心。

HDFS：

对外部客户机而言，HDFS就像一个传统的分级文件系统。可以创建、删除、移动或重命名文件，等等。

它有两种类型的节点：名称节点（NameNode）和数据节点（DataNode）。NameNode负责维护文件系统的元数据，DataNode则负责存储实际的数据。HDFS将文件分割成多个数据块，分布存储在不同的DataNode上。这种架构提高了系统的可靠性和可扩展性。

NemeNode：

NameNode 是一个通常在 HDFS 实例中的单独机器上运行的软件

DetaNode：

DataNode 也是一个通常在 HDFS实例中的单独机器上运行的软件

MapReduce编程模型

MapReduce模型包括两个阶段：Map阶段和Reduce阶段。在Map阶段，数据被转换成键值对形式进行处理；在Reduce阶段，对这些键值对进行归纳总结。理解这个模型对于进行大数据处理非常关键。

posted @ 2024-07-13 20:43 /张根源/ 阅读(10) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 暑假第七周——第三天

· 软工日报5.17

· hadoop学习

· 大数据管理系统架构Hadoop

· 快速入门.

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗？
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维：从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句：使用策略模式优化代码结构

公告

昵称： /张根源/
园龄： 1年10个月
粉丝： 1
关注： 6

+加关注

2025年3月

日

一

二

三

四

五

六

genyuan0

hadoop学习

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

推荐排行榜