随笔分类 -  细品Hadoop

Hadoop学习笔记3---安装并运行Hadoop
摘要:本文环境是在Ubuntu10.04环境下运行的。 在Linux上安装Hadoop之前,首先安装两个程序: 1、JDK1.6(或更高版本)。Hadoop是用Java编写的程序,Hadoop编译及MapReduce的运行都需要使用JDK。因此在安装Hadoop之前,必须安装JDK1.6或更高版本。 2、SSH(Secure Shell 安全外壳协议)。SSH 为建立在应用层和传输层基础上的安全协议。SSH 是目前较可靠,专为远程登录会话和其他网络服务提供安全性的协议。利用 SSH 协议可以有效防止远程管理过程中的信息泄露问题。Hadoop需要SSH来启动Slave(从机)列表中各台主机的... 阅读全文
posted @ 2013-08-25 17:10 Bester 阅读(1609) 评论(0) 推荐(0) 编辑
Hadoop学习笔记2---配置详解
摘要:配置系统是复杂软件必不可少的一部分,而Hadoop配置信息处理是学习Hadoop源代码的一个很好的起点。现在就从Hadoop的配置文件谈起。一、Hadoop配置格式Hadoop配置文件格式如下所示: io.sort.factor 10 The number of streams to merge at once while sorting files Hadoop的配置文件跟元素为configuration,一般只包含子元素property。每一个property元素就是一个配置项,配置文件不支持分层或分级,每个配置属性的名称name... 阅读全文
posted @ 2013-08-25 11:02 Bester 阅读(2016) 评论(2) 推荐(0) 编辑
Hadoop学习笔记1---简介 优点 架构分析
摘要:一、Hadoop简介 Hadoop最早起源于Nutch。Nutch是一个开源的网络搜索引擎,由Doug Cutting于2002年创建。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引,查询等功能,随着网页抓取数量的增加,遇到严重的可扩展问题,即不能解决数十亿网页的存储和索引的问题,之后,Google发布的两篇论文(The Google File System和MapReduce: Simplified Data Processing on Large Clusters)为该问题提供了可行的解决方案。 Hadoop是一个分布式系统基础架构,由Apache基金会开发。用户可以 阅读全文
posted @ 2013-08-13 17:20 Bester 阅读(5821) 评论(1) 推荐(1) 编辑