转载:Hadoop权威指南学习笔记
摘要:转自:http://pieux.github.io/blog/2013-05-08-learn-hadoop-the-definitive-guide.html 1 前言Hadoop的内部工作机制: 分布式系统理论, 实际工程和常识于一体的系统.但是,Hadoop提供的用于构建分布式系统的工具–数据存储, 数据分析,和协调处理–都非常简单.本书的结构: 1章介绍历史, 2章介绍MapReduce,3章剖析Hadoop文件系统, 特别是HDFS,4章包含Hadoop的基本I/O操作:数据完整性,压缩,序列化及基于文件的数据结构.接下来的5~8章深入剖析MapReduce.之后的省略说明.本书的阅
阅读全文
posted @
2013-07-31 16:05
猿人谷
阅读(8318)
推荐(0) 编辑
hadoop和Hive的数据处理流程
摘要:需求场景:统计每日用户登陆总数每分钟的原始日志内容如下:http://www.blue.com/uid=xxxxxx&ip=xxxxxx假设只有两个字段,uid和ip,其中uid是用户的uid,是用户的唯一标识,ip是用户的登陆ip,每日的记录行数是10亿,要统计出一天用户登陆的总数。处理流程建表那么我们首先要在hive里建表,建表语句如下:CREATE TABLE login ( uid STRING, ip STRING)PARTITIONED BY (dt STRING)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ','STO
阅读全文
posted @
2013-01-18 17:00
猿人谷
阅读(398)
推荐(0) 编辑
HDFS详解
摘要:【一】HDFS简介HDFS的基本概念1.1、数据块(block)HDFS(Hadoop Distributed File System)默认的最基本的存储单位是64M的数据块。和普通文件系统相同的是,HDFS中的文件是被分成64M一块的数据块存储的。不同于普通文件系统的是,HDFS中,如果一个文件小于一个数据块的大小,并不占用整个数据块存储空间。-------------------------------------------------------------------------------------------内容比较多,所以本区整理如下,欢迎下载学习:附件: HDFS简介.p.
阅读全文
posted @
2012-12-22 16:34
猿人谷
阅读(615)
推荐(0) 编辑
hadoop 1.x环境搭建
摘要:近一直在自学Hadoop,今天花点时间搭建一个开发环境,并整理成文。首先要了解一下Hadoop的运行模式:单机模式(standalone) 单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。伪分布模式(Pseudo-Distributed Mode) 伪分布模式在“单节点集群”上运...
阅读全文
posted @
2012-12-21 13:55
猿人谷
阅读(321)
推荐(0) 编辑
Hadoop的安装
摘要:来源:http://suxain.iteye.com/blog/1744652本来是用word写的,里面有一些截图,可是iteye的编辑器上传图片不方便,所以,附件中是原版word文档 一、 Hadoop安装1.1 hosts文件修改在每个结点修改hosts文件,配置节点IP与别名Vi /etc/hosts1.2 建立hadoop用户Useradd username //添加用户Passwd username //为用户生成密码 1.3 生成公私钥密钥对用hadoop 用户登录在各个节点上,分别使用 ssh-keygen –t rsa –f ~/.ssh/id_rsa来生成密钥Cd ~/.ss
阅读全文
posted @
2012-12-21 13:50
猿人谷
阅读(227)
推荐(0) 编辑
在windows下使用eclipes连接linux下的Hadoop集群
摘要:来源:http://suxain.iteye.com/blog/1748356hadoop 是工作在linux下的分布式系统,做为一个开发者,对于手里资源有限,不得不使用只有终端的虚拟机来运行hadoop集群。但是,在这种环境下,开发,调试就变得那么的不容易了。那么,有没有办法在windows下发调试呢。答案是肯定的。hadoop为我们提供了一个Eclipes插件,使用我们可以在Eclipse环境下开发,调试hadoop程序,那么,应该如何安装eclipse-hadoop插件呢。下面把我的研究结果分享给大家(附上我自己编译的插件)。1、编译eclipse-hadoop-plugins 在...
阅读全文
posted @
2012-12-21 13:48
猿人谷
阅读(2151)
推荐(0) 编辑
Hadoop架构——云计算的具体实现
摘要:Hadoop是IT行业一个新的热点,是云计算的一个具体实现、Hadoop本身具有很高的技术含量,是IT工程师学习的首选!下面我们来详细讲讲什么是Hadoop。 Hadoop是IT行业一个新的热点,是云计算的一个具体实现、Hadoop本身具有很高的技术含量,是IT工程师学习的首选!下面我们来详细讲讲什么是Hadoop。完整hadoop讲解视频教程下载地址:1、http://kuai.xunlei.com/d/CLCBYHQKJQNT2、http://kuai.xunlei.com/d/CSMFERCHAGEEHadoop是什么:Hadoop = The Hadoop projectsCommon
阅读全文
posted @
2012-12-21 13:46
猿人谷
阅读(723)
推荐(0) 编辑
分布式计算Hadoop简介
摘要:Hadoop是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。 Hadoop是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果。HDFS
阅读全文
posted @
2012-12-21 13:44
猿人谷
阅读(342)
推荐(0) 编辑