随笔分类 -  Hadoop

【转载】用ant编译hadoop 1.0.3插件
摘要:进入%Hadoop_HOME%\src\contrib\ 编辑build-contrib.xml 加入 <property name="version" value="1.0.3"/><property name="eclipse.home" location="D:/soft/eclipse-jee-indigo-SR1-win32/eclipse"/> 将%Hadoop_HOME%下的jar包拷到eclipse所在目录的plugins目录下,比如hadoop-core-*.jar 进入% 阅读全文
posted @ 2012-08-03 14:59 siwei1988 阅读(964) 评论(0) 推荐(0) 编辑
【转载】Hadoop 提示 Incompatible namespaceIDs
摘要:java.io.IOException: Incompatible namespaceIDs in /home/swxing/tmp/dfs/data: namenode namespaceID = 1446553041; datanode namespaceID = 399729807 at org.apache.hadoop.hdfs.server.datanode.DataStorage.doTransition(DataStorage.java:232) at org.apache.hadoop.hdfs.server.datanode.DataStorag... 阅读全文
posted @ 2012-08-03 14:40 siwei1988 阅读(358) 评论(0) 推荐(0) 编辑
【转载】Hadoop集群破坏试验可靠性验证
摘要:测试结果说明:集群环境说明:主机名IP地址操作系统版本Hadoop版本Hbase版本Zookeeper版本机器用途hadoop1192.168.3.65Linux AS 4.8hadoop-0.20.2hbase-0.90.4zookeeper-3.3.3namenodehadoop2192.168.3.66Linux AS 4.8hadoop-0.20.2hbase-0.90.4zookeeper-3.3.3datanodehadoop3192.168.3.67Linux AS 4.8hadoop-0.20.2hbase-0.90.4zookeeper-3.3.3datanodehadoop 阅读全文
posted @ 2012-07-26 09:30 siwei1988 阅读(4890) 评论(0) 推荐(0) 编辑
【原创】Hadoop 常用命令集锦
摘要:hadoop fsck -locations [/path] 打印文件实际副本数/文件块信息等 path要用绝对路径http://namenodeIP地址:50070/ 从浏览器中浏览文件http://namenodeIP地址:50030/ 从浏览器中查看MapReduce任务hadoop fs -getmerge<src> <localdst> [addnl] 将hdfs中目标文件夹中的文件块合并后存在本地路径localdst,addnl可选,用于指定在每个文件之后添加一个换行符 阅读全文
posted @ 2012-07-25 13:59 siwei1988 阅读(367) 评论(0) 推荐(0) 编辑
【转载】关于hadoop的dfs.replication
摘要:首先 dfs.replication这个参数是个client参数,即node level参数。需要在每台datanode上设置。其实默认为3个副本已经够用了,设置太多也没什么用。一个文件,上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数,对已经上传了的文件也不会起作用。可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1 -put 70M logs/2可以通过命令来更改已经上传的文件的副本数:hadoop fs -setrep -R 3 /查看当前hdfs的副本数hadoop fsck -locationsFSCK started b 阅读全文
posted @ 2012-07-25 13:48 siwei1988 阅读(926) 评论(0) 推荐(0) 编辑
【转载】Hadoop 文件副本存放的位置策略
摘要:我在这里主要说明一下Hadoop的replication policies。我们知道当我们要write data到datanode时,首先要通过namenode确定文件是否已经存在,若不存在则DataStreamer会请求namenode确定新分配的block的位置,然后就行write。具体namenode如何确定选择哪个datanode存储数据呢?这里namenode会参考可靠性,读写的带宽等因素来确定。具体如下说明:假设replica factor=3,Hadoop会将第一个replica放到client node里,这里node是随机选择的,当然hadoop还是想不要选择过于busy过于 阅读全文
posted @ 2012-07-25 12:10 siwei1988 阅读(3186) 评论(0) 推荐(0) 编辑
【转载】hadoop之failed task任务和killed task任务
摘要:failed task可理解为自杀,也就是task本身出了问题而自杀;killed task可理解为是他杀,也就是jobtracker认为这个任务的执行是多余的,所以把任务直接杀掉。起初用hadoop的时候经常在一个complete的job中看到几个failed 或者是 killed task,还经常好奇为什么有的时候task的失败不会影响到整个job的失败,而有的时候就会使整个job的失败,到底failed和killed task对整个job的影响是什么?failed taskfailed task出现的原因可分为以下几种情况:1 child task失败,比如map/reduce任务中抛出 阅读全文
posted @ 2012-07-25 11:19 siwei1988 阅读(2316) 评论(0) 推荐(0) 编辑
【原创】Hadoop配置详解
摘要:作业配置mapred.job.name作业名mapred.job.priority作业优先级mapred.job.map.capacity最多同时运行map任务数mapred.job.reduce.capacity最多同时运行reduce任务数hadoop.job.ugi作业执行权限mapred.map.tasksmap任务个数mapred.reduce.tasksreduce任务个数mapred.job.groups作业可运行的计算节点分组mapred.task.timeout任务没有响应(输入输出)的最大时间mapred.compress.map.outputmap的输出是否压缩mapre 阅读全文
posted @ 2012-07-12 17:16 siwei1988 阅读(3921) 评论(0) 推荐(0) 编辑
【原创】Hadoop 常见问题集锦
摘要:1.datanode节点TaskTracker任务启动,但是DataNode任务未启动这一般是由于对hadoop进行升级后导致的,需要删除hadoop.tmp.dir所对应的文件夹,然后再对namenode进行重新格式化,删除之前先将数据导出,要不然数据就没了2./lib/ld-linux.so.2: bad ELF interpreter: 没有那个文件或目录缺少 glibc.i686组件命令:yum install glibc.i6863.hadoop-site.xml:1:1: 文件提前结束hadoop目录下面conf文件夹中多了一个hadoop-site配置文件,在0.20.2版本之前 阅读全文
posted @ 2012-07-10 17:18 siwei1988 阅读(10287) 评论(0) 推荐(0) 编辑
【原创】hadoop升级后注意事项
摘要:(1)需要删除主节点和所有子节点hadoop.tmp.dir(conf文件夹core-site.xml文件)对应的文件夹,然后重新格式化namenodehadoop namenode -format 阅读全文
posted @ 2012-07-10 17:07 siwei1988 阅读(229) 评论(0) 推荐(0) 编辑
【原创】hadoop启动错误 找不到路由 解决方法
摘要:hadoop启动过程中遇到下面的问题:2012-07-04 18:43:20,763 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: STARTUP_MSG:/************************************************************STARTUP_MSG: Starting DataNodeSTARTUP_MSG: host = slave1/192.168.18.87STARTUP_MSG: args = []STARTUP_MSG: version = 0.20.2STA... 阅读全文
posted @ 2012-07-04 14:05 siwei1988 阅读(13128) 评论(0) 推荐(0) 编辑