关于Hadoop_env.sh中的HADOOP_CLASSPATH
之前博客里介绍了如何自定义DoubleArrayWritable,并将该类型的value写入SequenceFile文件中,为了能够使用命令查看这个文件中的内容(果然坑都是一步一步给自己挖的)参考了网友博客的内容,将DoubleArrayWritable类型打成Jar包,然后将这个Jar包的路径添加到Hadoop_env.sh配置文件中的HADOOP_CLASSPATH配置项中作为其配置值,添加完成之后再输入命令:
hadoop fs -text /10Seq
太神奇了,不再提示"DoubleArrayWritable不能加载了",可以看到文件内容了,当时就感叹这招太神奇了,不过今天运行MR程序的时候,提示“java.lang.ClassNotFoundException:....MyMapper”,还有个错误就是“no job jar set”这是没有设置jar包的意思(可是我设置了呀,job.setJarbyClass(MutiDoubleInputMatrixProduct.class))。就是找不到自定义的Mapper类MyMapper。试了很多方法都不成功,删掉之前在Hadoop_env.sh配置文件中的HADOOP_CLASSPATH配置值之后,就可以了。HADOOP_CLASSPATH应该使用默认值的,当我们给其赋值之后就会覆盖默认值,然后就找不到一些基础类的定义了,例如Mapper类,找不到Mapper类的定义,自然也就无法创建MyMapper。具体是什么机制还有待深究。