大数据管理系统--hadoop是如何工作的

1.分布式文件系统(3种类型的节点构成,一是大量的普通的数据节点构成一个集群,二是MASTER命名服务器,包括要管理文件由多少个数据块,这些数据块存放在哪个节点上,以及文件访问权限,都在这里定义。三是资源管理的zookeeper,包括目录管理,节点状态的监控)

2.存储管理-Nosql数据库。这个层面的节点服务器我们称之为分片服务器,负责数据分片的读取,便于用户进行数据的交互,MASTER节点负责分片,如何进行分片,放到哪一个分片服务器上去。

3.计算引擎层。MASTER负责接收一个任务,然后怎么把这个任务进行划分,然后调度这个任务的执行,而集群里的各个节点,负责计算任务的实施

每一层的系统,都不一定部署在同一个集群,刚才我们看到好像是在同一集群部署,实际上存储的集群和计算的集群是可以分离的。即:数据放在一个集群上,计算可以在另外一组集群上。在逻辑上在道理上都是可以的。但为了性能的考虑,通常这些不同层上系统的部署是在同一集群的。并且任务的计算节点,和任务所需要处理的数据节点,通常安排在同一台服务器上。这样的好处,就是减少数据的移动,减少网络传输的压力。特别是低速磁盘的访问开销,

在同一个集群下,我们对不同的大数据系统还要进行高效的资源管理,也有相应的软件来负责,在appche hadoop中,这个软件是yarn。

 

 

 

 

 

posted @   -空降兵-  阅读(64)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
点击右上角即可分享
微信分享提示