摘要: 下面结合具体业务讲解一下 HADOOP JAVA MapReduce API,本文在我的朋友 Erik Fang 帮助下完成,在此向他致谢1.日志格式time=2011-07-05 21:59:56`pid=52249`channelid=3`pos=1`adver=`ex=`monitoring=`guid=`ip=`sn=`dn=924779104-e8f54d2f`bid=`pfid=69`width=240`height=320`ss=240×320`fr=dwjava`ua=`imei=`ln=zh_cn`ext=a`li=g9eKibG8rMqN2tOHt76sy4/a0 阅读全文
posted @ 2012-05-18 19:08 LifeStudio 阅读(668) 评论(0) 推荐(0) 编辑
摘要: 首先简介一下,部分内置API的用途:Configuration conf = new Configuration(); // 读取hadoop配置Job job = new Job(conf, “作业名称”); // 实例化一道作业job.setOutputKeyClass(输出Key的类型);job.setOutputValueClass(输出Value的类型);FileInputFormat.addInputPath(job, new Path(输入hdfs路径));FileOutputFormat.setOutputPath(job, new Path(输出hdfs路径));job.se 阅读全文
posted @ 2012-05-18 19:07 LifeStudio 阅读(822) 评论(0) 推荐(0) 编辑
摘要: hadoop要发到每个节点的配置文件,只有core-site.xml mapred-site.xml hdfs-site.xml添加节点1.修改host和普通的datanode一样。添加namenode的ip2.修改namenode的配置文件conf/slaves添加新增节点的ip或host3.在新节点的机器上,启动服务[root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start datanode[root@slave-004 hadoop]# ./bin/hadoop-daemon.sh start tasktracker4.均衡block[ro 阅读全文
posted @ 2012-05-18 19:05 LifeStudio 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 刚刚开始学习hadoop,在配置hdfs的时候经常出现一些莫名其妙的问题。总结一下: 一 关于hadoop namenode -format每个节点(datanode、namenode)都需要进行hadoop namenode -format ,这是必须的,但是这也经常引发一些问题。例如datanode的namespaceID不匹配问题。导致datanode无法链接到namenode。在网上看到外文的参考方法:Big thanks to Jared Stehler for the following suggestion. I have not tested it myself yet,... 阅读全文
posted @ 2012-05-18 16:06 LifeStudio 阅读(417) 评论(0) 推荐(0) 编辑