随笔分类 - Hadoop学习
一步一步摸索Hadoop
摘要:简单说,分布式是以缩短单个任务的执行时间来提升效率的,而集群则是通过提高单位时间内执行的任务数来提升效率。 例如:如果一个任务由10个子任务组成,每个子任务单独执行需1小时,则在一台服务器上执行改任务需10小时。 采用分布式方案,提供10台服务器,每台服务器只负责处理一个子任务,不考虑子任务...
阅读全文
摘要:本篇先介绍HBase在伪分布式环境下的安装方式,然后将MapReduce编程和HBase结合起来使用,完成WordCount这个例子。HBase在伪分布环境下安装一、 前提条件 已经成功地安装了jdk1.6和hadoop1.2.1。 Jdk1.6+Hadoop1.2.1在伪分布环境下具体的安装方...
阅读全文
摘要:配置Hadoop1.2.1+eclipse(Juno版)开发环境,并运行WordCount程序一、 需求部分在ubuntu上用Eclipse IDE进行hadoop相关的开发,需要在Eclipse上安装hadoop的开发插件。最新释放出的hadoop包含源码的包,以 hadoop-1.X为例,包含相...
阅读全文
摘要:Hadoop例子——运行example中的wordCount例子一、 需求说明单词计数是最简单也是最能体现MapReduce思想的程序之一,可以称为 MapReduce版"Hello World",该程序的完整代码可以在Hadoop安装包的"src/examples"目录下找到。单词计数主要完成功能...
阅读全文
摘要:Hadoop1.2.1安装——单节点方式和单机伪分布方式一、 需求部分在Linux上安装Hadoop之前,需要先安装两个程序:1)JDK 1.6(或更高版本)。Hadoop是用Java编写的程序,Hadoop的编译及MapReduce的运行都需要使用JDK。因此在安装Hadoop前,必须安装JDK ...
阅读全文