摘要:
1、需求: 对web访问日志中的各字段识别切分,去除日志中不合法的记录,根据KPI统计需求,生成各类访问请求过滤数据 2、实现代码: a) 定义一个bean,用来记录日志数据中的各数据字段 package cn.bigdta.hdfs.weblog; public class WebLogBean 阅读全文
摘要:
1.社交粉丝数据分析: 解题思路:如果想要得到两两之间的共同好友,若A和B的共同好友是C,通过反向思考,可以求出C是哪些人的共同好友,然后将这些共同好友 两两组合; 第一步代码实现: 运行结果: 第二步代码实现:具有共同好友的人两两作为key输出 运行结果: 阅读全文
摘要:
1.1.倒排索引 根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确 定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(invertedindex) 例如:单词——文档矩阵(将属性值放在前面作为索引) 1.2.MapReduce实现倒 阅读全文