2012年12月21日
摘要: 近一直在自学Hadoop,今天花点时间搭建一个开发环境,并整理成文。首先要了解一下Hadoop的运行模式:单机模式(standalone) 单机模式是Hadoop的默认模式。当首次解压Hadoop的源码包时,Hadoop无法了解硬件安装环境,便保守地选择了最小配置。在这种默认模式下所有3个XML文件均为空。当配置文件为空时,Hadoop会完全运行在本地。因为不需要与其他节点交互,单机模式就不使用HDFS,也不加载任何Hadoop的守护进程。该模式主要用于开发调试MapReduce程序的应用逻辑。伪分布模式(Pseudo-Distributed Mode) 伪分布模式在“单节点集群”上运... 阅读全文
posted @ 2012-12-21 13:55 猿人谷 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 来源:http://suxain.iteye.com/blog/1744652本来是用word写的,里面有一些截图,可是iteye的编辑器上传图片不方便,所以,附件中是原版word文档 一、 Hadoop安装1.1 hosts文件修改在每个结点修改hosts文件,配置节点IP与别名Vi /etc/hosts1.2 建立hadoop用户Useradd username //添加用户Passwd username //为用户生成密码 1.3 生成公私钥密钥对用hadoop 用户登录在各个节点上,分别使用 ssh-keygen –t rsa –f ~/.ssh/id_rsa来生成密钥Cd ~/.ss 阅读全文
posted @ 2012-12-21 13:50 猿人谷 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 来源:http://suxain.iteye.com/blog/1748356hadoop 是工作在linux下的分布式系统,做为一个开发者,对于手里资源有限,不得不使用只有终端的虚拟机来运行hadoop集群。但是,在这种环境下,开发,调试就变得那么的不容易了。那么,有没有办法在windows下发调试呢。答案是肯定的。hadoop为我们提供了一个Eclipes插件,使用我们可以在Eclipse环境下开发,调试hadoop程序,那么,应该如何安装eclipse-hadoop插件呢。下面把我的研究结果分享给大家(附上我自己编译的插件)。1、编译eclipse-hadoop-plugins 在... 阅读全文
posted @ 2012-12-21 13:48 猿人谷 阅读(2151) 评论(1) 推荐(0) 编辑
摘要: Hadoop是IT行业一个新的热点,是云计算的一个具体实现、Hadoop本身具有很高的技术含量,是IT工程师学习的首选!下面我们来详细讲讲什么是Hadoop。 Hadoop是IT行业一个新的热点,是云计算的一个具体实现、Hadoop本身具有很高的技术含量,是IT工程师学习的首选!下面我们来详细讲讲什么是Hadoop。完整hadoop讲解视频教程下载地址:1、http://kuai.xunlei.com/d/CLCBYHQKJQNT2、http://kuai.xunlei.com/d/CSMFERCHAGEEHadoop是什么:Hadoop = The Hadoop projectsCommon 阅读全文
posted @ 2012-12-21 13:46 猿人谷 阅读(722) 评论(0) 推荐(0) 编辑
摘要: Hadoop是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。 Hadoop是什么:Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量计算机组成的集群中对海量数据进行分布式计算。Hadoop框架中最核心设计就是:HDFS和MapReduce。HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。数据在Hadoop中处理的流程可以简单的按照下图来理解:数据通过Haddop的集群处理后得到结果。HDFS 阅读全文
posted @ 2012-12-21 13:44 猿人谷 阅读(341) 评论(0) 推荐(0) 编辑
摘要: 分析realloc invalid pointer、指针无效等错误!realloc函数用来为ptr重新分配大小为size的一块内存,看似很简单,在使用过程中却会发生各种错误。函数形式为:void * realloc ( void * ptr, size_t new_size );最近在网上查看了一些资料,在glibc中没有找到具体的实现(有人找到了可以发给我,ladd.cn@gmail.com),查到了一个开源项目自己写的realloc代码,http://code.google.com/p/mallocspethmeniel/source/browse/trunk/realloc.c?r=23 阅读全文
posted @ 2012-12-21 13:39 猿人谷 阅读(2428) 评论(0) 推荐(0) 编辑
摘要: realloc invalid pointer错误char* temp=(char*) realloc(src,sizeof(char)*100);如上面这行代码,可能会出现标题中的错误。错误原因是因为src指向的不是NULL或堆中的地址。具体的就是realloc函数要求src为下面两种情况1.src==NULL2.src指针必须是malloc(), calloc(), 或realloc()分配的造成错误的代码造成错误的代码一般是如下形式是char* src="Hello world!";//错误代码或者char src[100];//错误代码上面这两种方式分配内存位于栈区 阅读全文
posted @ 2012-12-21 13:36 猿人谷 阅读(456) 评论(0) 推荐(0) 编辑
摘要: 1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1: 可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为300M。s 遍历文件b,采取和a相同的方式将url分别存储到1000各小文件(记为)。这样处理后,所有可能相同的url都在对应的小文件()中,不对应的小文件不可能有相同的url。然后我们只要求出1000对 阅读全文
posted @ 2012-12-21 09:09 猿人谷 阅读(260) 评论(0) 推荐(0) 编辑
摘要: 一、Linux服务器上11种网络连接状态: 图:TCP的状态机通常情况下,一个正常的TCP连接,都会有三个阶段:1、TCP三次握手; 2、数据传送; 3、TCP四次挥手注:以下说明最好能结合”图:TCP的状态机”来理解。SYN: (同步序列编号,Synchronize Sequence Numbers)该标志仅在三次握手建立TCP连接时有效。表示一个新的TCP连接请求。ACK: (确认编号,Acknowledgement Number)是对TCP请求的确认标志,同时提示对端系统已经成功接收所有数据。FIN: (结束标志,FINish)用来结束一个TCP回话.但对应端口仍处于开放状态,准备接.. 阅读全文
posted @ 2012-12-21 09:07 猿人谷 阅读(1067) 评论(0) 推荐(0) 编辑
摘要: assert宏的原型定义在<assert.h>中,其作用是如果它的条件返回错误,则终止程序执行,原型定义:#include <assert.h>void assert( int expression ); assert的作用是现计算表达式 expression ,如果其值为假(即为0),那么它先向stderr打印一条出错信息,然后通过调用 abort 来终止程序运行。请看下面的程序清单badptr.c:#include <stdio.h>#include <assert.h>#include <stdlib.h>int main( v 阅读全文
posted @ 2012-12-21 09:06 猿人谷 阅读(271) 评论(0) 推荐(0) 编辑