摘要:
ETL 1.ETL的重要性 ==> 存在的问题:每个MR作业都去全量读取待处理的原始日志,如果数据量很大,将非常不可取 ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程 为什么要ETL:没有必要解析出所有数据,只需要解析出有价值的字段即可。 阅读全文
摘要:
项目要求 根据电商日志文件,分析: 1 . 统计页面浏览量(每行记录就是一次浏览) 2 . 统计各个省份的浏览量 (需要解析IP) 3 . 日志的ETL操作(ETL:数据从来源端经过抽取(Extract)、转换(Transform)、加载(Load)至目的端的过程) 为什么要ETL:没有必要解析出所 阅读全文
摘要:
浏览量统计功能实现 统计页面的浏览量 count 一行记录做成一个固定的KEY,value赋值为1 PVStatApp 点击查看代码 package com.imooc.bigdata.hadoop.mr.project.mr; import org.apache.hadoop.conf.Confi 阅读全文