打赏

03.网站点击流数据分析项目_模块开发_数据预处理

4 模块开发—数据预处理

4.1 主要目的: 

  过滤“不合规”数据

  格式转换和规整

  根据后续的统计需求,过滤分离出各种不同主题(不同栏目path)的基础数据

4.2  实现方式:

  开发一个MapReduce程序WeblogPreProcess来实现逻辑;

  运行mr对数据进行预处理:hadoop jar click.jar cn.itcast.bigdata.hive.mr.pre.WeblogPreProcess /azaz /fenazaz

  如上步骤即就是:将采集的日志文件access.log,进行清洗;

4.3 点击流模型数据梳理

  由于大量的指标统计从点击流模型中更容易得出,所以在预处理阶段,可以使用mr程序来生成点击流模型的数据

  4.3.1 点击流模型pageviews表(session聚集的访问页面信息)

  hadoop jar click.jar cn.itcast.bigdata.hive.mr.ClickStreamThree /fenazaz /pageviews

  

  4.3.2 点击流模型visit信息表:MR程序从pageviews数据中,梳理出每一次visit的起止时间、页面信息

  hadoop jar click.jar cn.itcast.bigdata.hive.mr.ClickStreamVisit /pageviews /visitout

  

  这就是点击流模型。当WEB日志转化成点击流数据的时候,很多网站分析度量的计算变得简单了,这就是点击流

的“魔力”所在。基于点击流数据我们可以统计出许多常见的网站分析度量

  然后,在hive仓库中建点击流visit模型表:

drop table if exist click_stream_visit;
create table click_stream_visit(
session     string,
remote_addr string,
inTime      string,
outTime     string,
inPage      string,
outPage     string,
referal     string,
pageVisits  int)
partitioned by (datestr string);

  然后,将MR运算得到的visit数据导入visit模型表

  load data inpath '/visitout' into table click_stream_visit partition(datestr='2013-09-18');

 

  

 

 

 

  

 

  

 

load data inpath '/weblog/visitout' into table click_stream_visit partition(datestr='2013-09-18');

posted @ 2018-07-18 15:24  QueryMarsBo  阅读(317)  评论(0编辑  收藏  举报