Hadoop 数据库 - HBase
摘要:转自:http://blog.csdn.net/iAm3331 什么是HBase?HBase,是Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。使用HBase技术可以在廉价的PC服务器上搭建起大规模结构化的存储集群。它底层的文件系统使用HDFS,使用Zooke...
阅读全文
posted @
2015-04-06 21:19
SammyLiu
阅读(5809)
推荐(0) 编辑
Hadoop 分布式文件系统 - HDFS
摘要:当数据集超过一个单独的物理计算机的存储能力时,便有必要将它分不到多个独立的计算机上。管理着跨计算机网络存储的文件系统称为分布式文件系统。Hadoop 的分布式文件系统称为 HDFS,它 是为 以流式数据访问模式存储超大文件而设计的文件系统。“超大文件”是指几百 TB 大小甚至 PB 级的数据;流...
阅读全文
posted @
2015-04-06 17:23
SammyLiu
阅读(3252)
推荐(1) 编辑
Hadoop 2.0 中的资源管理框架 - YARN(Yet Another Resource Negotiator)
摘要:1. Hadoop 2.0 中的资源管理http://dongxicheng.org/mapreduce-nextgen/hadoop-1-and-2-resource-manage/Hadoop 2.0指的是版本为Apache Hadoop 0.23.x、2.x或者CDH4系列的Hadoop,内核...
阅读全文
posted @
2015-04-06 16:42
SammyLiu
阅读(3355)
推荐(0) 编辑
Hadoop 1.0 和 2.0 中的数据处理框架 - MapReduce
摘要:1. MapReduce -映射、化简编程模型1.1 MapReduce 的概念1.1.1 map 和 reduce1.1.2 shufftle 和 排序MapReduce 保证每个 reducer 的输入都已经按键排序。1.1.3 MapReduce 类型和输入输出MapReduce 中的 map...
阅读全文
posted @
2015-04-06 16:31
SammyLiu
阅读(2873)
推荐(0) 编辑
Hadoop 概述
摘要:Hadoop 是 Apache 基金会下的一个开源分布式计算平台,以 HDFS 分布式文件系统 和 MapReduce 分布式计算框架为核心,为用户提供底层细节透明的分布式基础设施。目前,Hadoop 是分析海量数据的首选工具。Hadoop 是一个可以更容易开发和并行处理大规模数据的分布式计算平...
阅读全文
posted @
2015-04-06 10:41
SammyLiu
阅读(2435)
推荐(0) 编辑