Hadoop - 随笔分类 - siwei1988

【转载】用ant编译hadoop 1.0.3插件

摘要：进入%Hadoop_HOME%\src\contrib\ 编辑build-contrib.xml 加入 <property name="version" value="1.0.3"/><property name="eclipse.home" location="D:/soft/eclipse-jee-indigo-SR1-win32/eclipse"/> 将%Hadoop_HOME%下的jar包拷到eclipse所在目录的plugins目录下，比如hadoop-core-*.jar 进入% 阅读全文

posted @ 2012-08-03 14:59 siwei1988 阅读(964) 评论(0) 推荐(0) 编辑

【转载】Hadoop 提示 Incompatible namespaceIDs

摘要：java.io.IOException: Incompatible namespaceIDs in /home/swxing/tmp/dfs/data: namenode namespaceID = 1446553041; datanode namespaceID = 399729807 at org.apache.hadoop.hdfs.server.datanode.DataStorage.doTransition(DataStorage.java:232) at org.apache.hadoop.hdfs.server.datanode.DataStorag... 阅读全文

posted @ 2012-08-03 14:40 siwei1988 阅读(358) 评论(0) 推荐(0) 编辑

【转载】Hadoop集群破坏试验可靠性验证

摘要：测试结果说明：集群环境说明：主机名IP地址操作系统版本Hadoop版本Hbase版本Zookeeper版本机器用途hadoop1192.168.3.65Linux AS 4.8hadoop-0.20.2hbase-0.90.4zookeeper-3.3.3namenodehadoop2192.168.3.66Linux AS 4.8hadoop-0.20.2hbase-0.90.4zookeeper-3.3.3datanodehadoop3192.168.3.67Linux AS 4.8hadoop-0.20.2hbase-0.90.4zookeeper-3.3.3datanodehadoop 阅读全文

posted @ 2012-07-26 09:30 siwei1988 阅读(4890) 评论(0) 推荐(0) 编辑

【原创】Hadoop 常用命令集锦

摘要：hadoop fsck -locations [/path] 打印文件实际副本数/文件块信息等 path要用绝对路径http://namenodeIP地址:50070/ 从浏览器中浏览文件http://namenodeIP地址:50030/ 从浏览器中查看MapReduce任务hadoop fs -getmerge<src> <localdst> [addnl] 将hdfs中目标文件夹中的文件块合并后存在本地路径localdst，addnl可选，用于指定在每个文件之后添加一个换行符阅读全文

posted @ 2012-07-25 13:59 siwei1988 阅读(367) 评论(0) 推荐(0) 编辑

【转载】关于hadoop的dfs.replication

摘要：首先 dfs.replication这个参数是个client参数，即node level参数。需要在每台datanode上设置。其实默认为3个副本已经够用了，设置太多也没什么用。一个文件，上传到hdfs上时指定的是几个副本就是几个。以后你修改了副本数，对已经上传了的文件也不会起作用。可以再上传文件的同时指定创建的副本数hadoop dfs -D dfs.replication=1 -put 70M logs/2可以通过命令来更改已经上传的文件的副本数：hadoop fs -setrep -R 3 /查看当前hdfs的副本数hadoop fsck -locationsFSCK started b 阅读全文

posted @ 2012-07-25 13:48 siwei1988 阅读(926) 评论(0) 推荐(0) 编辑

【转载】Hadoop 文件副本存放的位置策略

摘要：我在这里主要说明一下Hadoop的replication policies。我们知道当我们要write data到datanode时，首先要通过namenode确定文件是否已经存在，若不存在则DataStreamer会请求namenode确定新分配的block的位置，然后就行write。具体namenode如何确定选择哪个datanode存储数据呢？这里namenode会参考可靠性，读写的带宽等因素来确定。具体如下说明：假设replica factor=3，Hadoop会将第一个replica放到client node里，这里node是随机选择的，当然hadoop还是想不要选择过于busy过于阅读全文

posted @ 2012-07-25 12:10 siwei1988 阅读(3186) 评论(0) 推荐(0) 编辑

【转载】hadoop之failed task任务和killed task任务

摘要：failed task可理解为自杀，也就是task本身出了问题而自杀；killed task可理解为是他杀，也就是jobtracker认为这个任务的执行是多余的，所以把任务直接杀掉。起初用hadoop的时候经常在一个complete的job中看到几个failed 或者是 killed task，还经常好奇为什么有的时候task的失败不会影响到整个job的失败，而有的时候就会使整个job的失败，到底failed和killed task对整个job的影响是什么？failed taskfailed task出现的原因可分为以下几种情况：1 child task失败，比如map/reduce任务中抛出阅读全文

posted @ 2012-07-25 11:19 siwei1988 阅读(2316) 评论(0) 推荐(0) 编辑

【原创】Hadoop配置详解

摘要：作业配置mapred.job.name作业名mapred.job.priority作业优先级mapred.job.map.capacity最多同时运行map任务数mapred.job.reduce.capacity最多同时运行reduce任务数hadoop.job.ugi作业执行权限mapred.map.tasksmap任务个数mapred.reduce.tasksreduce任务个数mapred.job.groups作业可运行的计算节点分组mapred.task.timeout任务没有响应（输入输出）的最大时间mapred.compress.map.outputmap的输出是否压缩mapre 阅读全文

posted @ 2012-07-12 17:16 siwei1988 阅读(3921) 评论(0) 推荐(0) 编辑

【原创】Hadoop 常见问题集锦

摘要：1.datanode节点TaskTracker任务启动，但是DataNode任务未启动这一般是由于对hadoop进行升级后导致的，需要删除hadoop.tmp.dir所对应的文件夹，然后再对namenode进行重新格式化，删除之前先将数据导出，要不然数据就没了2./lib/ld-linux.so.2: bad ELF interpreter: 没有那个文件或目录缺少 glibc.i686组件命令：yum install glibc.i6863.hadoop-site.xml:1:1: 文件提前结束hadoop目录下面conf文件夹中多了一个hadoop-site配置文件，在0.20.2版本之前阅读全文

posted @ 2012-07-10 17:18 siwei1988 阅读(10287) 评论(0) 推荐(0) 编辑

【原创】hadoop升级后注意事项

摘要：(1)需要删除主节点和所有子节点hadoop.tmp.dir（conf文件夹core-site.xml文件）对应的文件夹，然后重新格式化namenodehadoop namenode -format 阅读全文

posted @ 2012-07-10 17:07 siwei1988 阅读(229) 评论(0) 推荐(0) 编辑

【原创】hadoop启动错误找不到路由解决方法

摘要：hadoop启动过程中遇到下面的问题：2012-07-04 18:43:20,763 INFO org.apache.hadoop.hdfs.server.datanode.DataNode: STARTUP_MSG:/************************************************************STARTUP_MSG: Starting DataNodeSTARTUP_MSG: host = slave1/192.168.18.87STARTUP_MSG: args = []STARTUP_MSG: version = 0.20.2STA... 阅读全文

posted @ 2012-07-04 14:05 siwei1988 阅读(13128) 评论(0) 推荐(0) 编辑

随笔分类 - Hadoop