摘要:
开头对这边博客的内容做个概述,首先是定义了一个DoubleArrayWritable的类,用于存放矩阵的列向量,然后将其作为value写入SequenceFile中,key就是对应的矩阵的列号,最后(key,value)从SequenceFile中读出,与另一矩阵做乘法。完全通过IDEA在本地调试程 阅读全文
摘要:
1)在编写MR程序的时候经常会有如下代码: String uri=“。。。。”; Configuration conf=new Configuration(); FileSystem fs=FileSystem.get(URI.create(uri),conf); URI究竟是什么东西?有什么用?2 阅读全文
摘要:
此输入格式的作用就是可以将来自多个不同文件的物理块作为一个split,然后由一个map进行处理。 http://www.blogjava.net/shenh062326/archive/2012/07/03/hadoop.html 阅读全文
摘要:
分布式缓存用于将使用的小文件首先分发到各个datanode节点上,然后利用map/reduce阶段的setup()方法将文件内容读入内存,加快程序执行。具体实现方法如下: http://demievil.github.io/2014/10/29/Hadoop-DistributedCache/ 阅读全文
摘要:
MultipleInput输入格式允许一个job的输入为多个文件夹下的文件(也就是多路径输入),并且不同文件夹下的文件可以实现不同的map逻辑,不过貌似必须使用相同的reduce逻辑。 http://blog.csdn.net/u010366796/article/details/44727471 阅读全文