摘要: 一、Hive表设计优化 1.1 分区表 1.1.1 Hive查询基本原理 Hive的设计思想是通过元数据将HDFS上的文件映射成表,基本的查询原理是当用户通过HQL语句对Hive中的表进行复杂数据处理和计算时,默认将其转换为分布式计算MapReduce程序对HDFS中的数据进行读取处理的过程。 例如 阅读全文
posted @ 2022-11-12 17:13 王陸 阅读(1552) 评论(0) 推荐(0) 编辑
摘要: 1 需求描述 统计硅谷影音视频网站的常规指标,各种TopN指标: 统计视频观看数Top10 统计视频类别热度Top10 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数 统计视频观看数Top50所关联视频的所属类别Rank 统计每个类别中的视频热度Top10,以Music为 阅读全文
posted @ 2022-11-12 12:52 王陸 阅读(141) 评论(0) 推荐(0) 编辑