YouTube项目(大数据项目)

集群规划和搭建:

  hadoop 2.2.7

  Hive :

  MySQL :

项目需求:

  统计 Youtube 视频网站的常规指标,各种 TopN 指标:
    --统计视频观看数 Top10
    --统计视频类别热度 Top10
    --统计视频观看数 Top20 所属类别包含这 Top20 视频的个数
    --统计视频观看数 Top50 所关联视频的所属类别 Rank
    --统计每个类别中的视频热度 Top10 
    --统计每个类别中视频流量 Top10
    --统计上传视频最多的用户 Top10 以及他们上传的视频
    --统计每个类别视频观看数 Top10

 

数据结构

  原始数据:

  7D0Mf4Kn4Xk   periurban  583 Music  201   6508  4.19   687  312 e2k0h6tPvGc yuO6yjlvXe8 VqpnWBo-。。。。

  视频表:

字段 备注 与原始数据的对应
video_id 视频唯一 id 7D0Mf4Kn4Xk
uploader 上传者 periurban
ag 视频年龄(上传至今的天数) 583
type 视频类别 Music
length 视频长度 201
views_numble 观看次 6508
rate 视频评分 4.19
ratings 流量 687
conments 评论数 312 
related_ids 相关视频 id e2k0h6tPvGc。。。。。

 

    用户表:

    

字段 备注 字段类型
uploader 上传者用户名 string
videos 上传视频数 int
friends 朋友数量 int

 

 

 

数据清洗 :

  Hadoop MapReduce

数据分析:

  MapReduce or Hive

视图表:

posted @ 2019-09-11 17:30  影-辰  阅读(461)  评论(1编辑  收藏  举报