摘要:
转自:http://blog.csdn.net/iAm3331 什么是HBase?HBase,是Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。使用HBase技术可以在廉价的PC服务器上搭建起大规模结构化的存储集群。它底层的文件系统使用HDFS,使用Zooke... 阅读全文
摘要:
当数据集超过一个单独的物理计算机的存储能力时,便有必要将它分不到多个独立的计算机上。管理着跨计算机网络存储的文件系统称为分布式文件系统。Hadoop 的分布式文件系统称为 HDFS,它 是为 以流式数据访问模式存储超大文件而设计的文件系统。“超大文件”是指几百 TB 大小甚至 PB 级的数据;流... 阅读全文
摘要:
1. Hadoop 2.0 中的资源管理http://dongxicheng.org/mapreduce-nextgen/hadoop-1-and-2-resource-manage/Hadoop 2.0指的是版本为Apache Hadoop 0.23.x、2.x或者CDH4系列的Hadoop,内核... 阅读全文
摘要:
1. MapReduce -映射、化简编程模型1.1 MapReduce 的概念1.1.1 map 和 reduce1.1.2 shufftle 和 排序MapReduce 保证每个 reducer 的输入都已经按键排序。1.1.3 MapReduce 类型和输入输出MapReduce 中的 map... 阅读全文
摘要:
Hadoop 是 Apache 基金会下的一个开源分布式计算平台,以 HDFS 分布式文件系统 和 MapReduce 分布式计算框架为核心,为用户提供底层细节透明的分布式基础设施。目前,Hadoop 是分析海量数据的首选工具。Hadoop 是一个可以更容易开发和并行处理大规模数据的分布式计算平... 阅读全文