Hadoop/HDFS

1.Hadoop分布式存储系统

1.Hadoop定义
一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),其中一个组件是HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streaming access)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,而MapReduce则为海量的数据提供了计算。

2.Hadoop主要解决:海量数据的存储和海量数据的分析计算问题。

3.Hadoop的优势:
(1)高可靠性: Hadoop 底层维护多个数据副本,所以即使 Hadoop 某个计算元素或存储出现故障,也不会导致数据的丢失。
(2)高扩展性: 在集群间分配任务数据,可方便的扩展数以千计的节点。
(3)高效性: 在 MapReduce 的思想下,Hadoop 是并行工作的,以加快任务处理速度。
(4)高容错性: 能够自动将失败的任务重新分配。

4.Hadoop 的组成


(1)HDFS: 分布式文件存储
(2)YARN: 分布式资源管理
(3)MapReduce: 分布式计算
(4)Others: 利用YARN的资源管理功能实现其他的数据处理方式

posted @ 2020-11-10 17:02  Shmily_blog  阅读(59)  评论(0编辑  收藏  举报