2016 年 11月 15 日随笔档案 - OnTheWay_duking

2016年11月15日

摘要：本文转载至： http://www.aboutyun.com/thread-7358-1-1.html hadoop涉及输出文本的默认输出编码统一用没有BOM的UTF-8的形式，但是对于中文的输出window系统默认的是GBK，有些格式文件例如CSV格式的文件用excel打开输出编码为没有BOM的U 阅读全文

posted @ 2016-11-15 15:46 OnTheWay_duking 阅读(3264) 评论(0) 推荐(0) 编辑

mapreduce实现学生平均成绩

摘要：思路：首先从文本读入一行数据，按空格对字符串进行切割，切割后包含学生姓名和某一科的成绩，map输出key->学生姓名 value->某一个成绩然后在reduce里面对成绩进行遍历求和，求平均数，然后输出key->学生姓名 value->平均成绩源数据： chines.txt english.t 阅读全文

posted @ 2016-11-15 15:35 OnTheWay_duking 阅读(4247) 评论(0) 推荐(0) 编辑

mapreduce 实现数子排序

摘要：设计思路：使用mapreduce的默认排序，按照key值进行排序的，如果key为封装int的IntWritable类型，那么MapReduce按照数字大小对key排序，如果key为封装为String的Text类型，那么MapReduce按照字典顺序对字符串排序。首先map阶段将输入的数字作为ke 阅读全文

posted @ 2016-11-15 12:13 OnTheWay_duking 阅读(1529) 评论(0) 推荐(0) 编辑

hadoop mapreduce实现数据去重

摘要：实现原理分析： map函数数将输入的文本按照行读取，并将Key--每一行的内容输出 value--空。 reduce 会自动统计所有的key,我们让reduce输出key->输入的key value->空，这样就利用reduce自动合并相同的key的原理实现了数据去重。源代码：阅读全文

posted @ 2016-11-15 10:14 OnTheWay_duking 阅读(4430) 评论(0) 推荐(0) 编辑

OnTheWay_duking

公告