本站文章大部分为作者原创,非商业用途转载无需作者授权,但务必在文章标题下面注明作者 刘世民(Sammy Liu)以及可点击的本博客地址超级链接 http://www.cnblogs.com/sammyliu/ ,谢谢合作
  2015年4月6日
摘要: 转自:http://blog.csdn.net/iAm3331 什么是HBase?HBase,是Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。使用HBase技术可以在廉价的PC服务器上搭建起大规模结构化的存储集群。它底层的文件系统使用HDFS,使用Zooke... 阅读全文
posted @ 2015-04-06 21:19 SammyLiu 阅读(5786) 评论(0) 推荐(0) 编辑
摘要: 当数据集超过一个单独的物理计算机的存储能力时,便有必要将它分不到多个独立的计算机上。管理着跨计算机网络存储的文件系统称为分布式文件系统。Hadoop 的分布式文件系统称为 HDFS,它 是为 以流式数据访问模式存储超大文件而设计的文件系统。“超大文件”是指几百 TB 大小甚至 PB 级的数据;流... 阅读全文
posted @ 2015-04-06 17:23 SammyLiu 阅读(3219) 评论(1) 推荐(1) 编辑
摘要: 1. Hadoop 2.0 中的资源管理http://dongxicheng.org/mapreduce-nextgen/hadoop-1-and-2-resource-manage/Hadoop 2.0指的是版本为Apache Hadoop 0.23.x、2.x或者CDH4系列的Hadoop,内核... 阅读全文
posted @ 2015-04-06 16:42 SammyLiu 阅读(3328) 评论(0) 推荐(0) 编辑
摘要: 1. MapReduce -映射、化简编程模型1.1 MapReduce 的概念1.1.1 map 和 reduce1.1.2 shufftle 和 排序MapReduce 保证每个 reducer 的输入都已经按键排序。1.1.3 MapReduce 类型和输入输出MapReduce 中的 map... 阅读全文
posted @ 2015-04-06 16:31 SammyLiu 阅读(2847) 评论(0) 推荐(0) 编辑
摘要: Hadoop 是 Apache 基金会下的一个开源分布式计算平台,以 HDFS 分布式文件系统 和 MapReduce 分布式计算框架为核心,为用户提供底层细节透明的分布式基础设施。目前,Hadoop 是分析海量数据的首选工具。Hadoop 是一个可以更容易开发和并行处理大规模数据的分布式计算平... 阅读全文
posted @ 2015-04-06 10:41 SammyLiu 阅读(2395) 评论(0) 推荐(0) 编辑
摘要: 摘自百度文库 阅读全文
posted @ 2015-04-06 10:26 SammyLiu 阅读(1659) 评论(0) 推荐(0) 编辑