2018年12月6日

Hbase 表的Rowkey设计避免数据热点

摘要: 一、案例分析 常见避免数据热点问题的处理方式有:加盐、哈希、反转等方法结合预分区使用。 由于目前原数据第一字段为时间戳形式,第二字段为电话号码,直接存储容易引起热点问题,通过加随机列、组合时间戳、字段反转的方式来设计Rowkey,来实现既能高效查询又能避免热点问题。 二、代码部分 运行完程序后sca 阅读全文

posted @ 2018-12-06 11:54 PerfectData 阅读(1117) 评论(0) 推荐(0) 编辑

视频网站数据MapReduce清洗及Hive数据分析

摘要: 一.需求描述 利用MapReduce清洗视频网站的原数据,用Hive统计出各种TopN常规指标: 视频观看数 Top10 视频类别热度 Top10 视频观看数 Top20 所属类别包含这 Top20 视频的个数 视频观看数 Top50 所关联视频的所属类别的热度排名 每个类别中的视频热度 Top10 阅读全文

posted @ 2018-12-06 11:02 PerfectData 阅读(1853) 评论(0) 推荐(0) 编辑

导航