打赏
摘要: 1. 自定义GroupingComparator 1.1.需求:有如下订单 现在需要求出每一个订单中成交金额最大的一笔交易 1.2.分析: 1、利用“订单id和成交金额”Bean作为key,可以将map阶段读取到的所有订单数据按照id分区,按照金额排序, 发送到reduce 2、在reduce端利用 阅读全文
posted @ 2018-07-02 16:57 QueryMarsBo 阅读(517) 评论(0) 推荐(0) 编辑
摘要: 1、需求: 对web访问日志中的各字段识别切分,去除日志中不合法的记录,根据KPI统计需求,生成各类访问请求过滤数据 2、实现代码: a) 定义一个bean,用来记录日志数据中的各数据字段 package cn.bigdta.hdfs.weblog; public class WebLogBean 阅读全文
posted @ 2018-07-02 13:57 QueryMarsBo 阅读(701) 评论(0) 推荐(0) 编辑
摘要: 1.社交粉丝数据分析: 解题思路:如果想要得到两两之间的共同好友,若A和B的共同好友是C,通过反向思考,可以求出C是哪些人的共同好友,然后将这些共同好友 两两组合; 第一步代码实现: 运行结果: 第二步代码实现:具有共同好友的人两两作为key输出 运行结果: 阅读全文
posted @ 2018-07-02 11:34 QueryMarsBo 阅读(389) 评论(0) 推荐(0) 编辑
摘要: 1.1.倒排索引 根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确 定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(invertedindex) 例如:单词——文档矩阵(将属性值放在前面作为索引) 1.2.MapReduce实现倒 阅读全文
posted @ 2018-07-02 09:17 QueryMarsBo 阅读(311) 评论(0) 推荐(0) 编辑