YouTube项目(大数据项目)
集群规划和搭建:
hadoop 2.2.7
Hive :
MySQL :
项目需求:
统计 Youtube 视频网站的常规指标,各种 TopN 指标:
--统计视频观看数 Top10
--统计视频类别热度 Top10
--统计视频观看数 Top20 所属类别包含这 Top20 视频的个数
--统计视频观看数 Top50 所关联视频的所属类别 Rank
--统计每个类别中的视频热度 Top10
--统计每个类别中视频流量 Top10
--统计上传视频最多的用户 Top10 以及他们上传的视频
--统计每个类别视频观看数 Top10
数据结构 :
原始数据:
7D0Mf4Kn4Xk periurban 583 Music 201 6508 4.19 687 312 e2k0h6tPvGc yuO6yjlvXe8 VqpnWBo-。。。。
视频表:
字段 | 备注 | 与原始数据的对应 |
video_id | 视频唯一 id | 7D0Mf4Kn4Xk |
uploader | 上传者 | periurban |
ag | 视频年龄(上传至今的天数) | 583 |
type | 视频类别 | Music |
length | 视频长度 | 201 |
views_numble | 观看次 | 6508 |
rate | 视频评分 | 4.19 |
ratings | 流量 | 687 |
conments | 评论数 | 312 |
related_ids | 相关视频 id | e2k0h6tPvGc。。。。。 |
用户表:
字段 | 备注 | 字段类型 |
uploader | 上传者用户名 | string |
videos | 上传视频数 | int |
friends | 朋友数量 | int |
数据清洗 :
Hadoop MapReduce
数据分析:
MapReduce or Hive
视图表: