摘要:
本文转载至: http://www.aboutyun.com/thread-7358-1-1.html hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式,但是对于中文的输出window系统默认的是GBK,有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的U 阅读全文
摘要:
思路: 首先从文本读入一行数据,按空格对字符串进行切割,切割后包含学生姓名和某一科的成绩,map输出key->学生姓名 value->某一个成绩 然后在reduce里面对成绩进行遍历求和,求平均数,然后输出key->学生姓名 value->平均成绩 源数据: chines.txt english.t 阅读全文
摘要:
设计思路: 使用mapreduce的默认排序,按照key值进行排序的,如果key为封装int的IntWritable类型,那么MapReduce按照数字大小对key排序,如果key为封装为String的Text类型,那么MapReduce按照字典顺序对字符串排序。 首先map阶段将输入的数字作为ke 阅读全文
摘要:
实现原理分析: map函数数将输入的文本按照行读取, 并将Key--每一行的内容 输出 value--空。 reduce 会自动统计所有的key,我们让reduce输出key->输入的key value->空,这样就利用reduce自动合并相同的key的原理实现了数据去重。 源代码: 阅读全文