用户行为日志

用于行为日志生成方式

1、Nginx

2、Ajax

用户行为日志内容

日志数据内容:

1)访问的系统属性:操作系统、浏览器等等

2)访问特征:点击的URL、从哪个URL跳转过来的(referer)、页面上的停留时间

3)访问信息:session_id、访问ID(访问城市)等

用户行为日志分析的意义

网站的眼睛

网站的神经

网站的大脑

离线数据处理流程

1)数据采集

  Flume:web日志写入到HDFS

2)数据清洗

  脏数据

  spark、hive、MapReduce 或者是其他的分布式计算框架

  清洗后的数据可以放到HDFS(hive表/spark SQL表)

3)数据处理

  按照需求进行相应业务的统计和分析

  spark、hive、MapReduce 或者是其他的分布式计算框架

4)数据处理结果入库

  结果可以存到RDBMS、nosql

  调用API完成

5)数据的可视化

  通过图形化展示的方式展现出来:饼图、柱状图、地图、折线图

  echarts、hue、zeppelin

 

数据处理架构

  项目需求

需求一:慕课网主站最受欢迎的课程/手记 topN

需求二:按地市统计imooc主站最受欢迎的topN课程

  按IP地址提取地市信息

  窗口函数在spark SQL中的使用

需求三:按流量统计imooc主站最受欢迎topN课程

imooc主站日志介绍

访问时间、访问URL、访问IP、访问过程耗费流量

数据清洗:

posted @ 2020-06-05 15:43  自由的射手  阅读(1449)  评论(0编辑  收藏  举报