RICH-ATONE

2020年11月19日 #

Apriori算法原理与实现

摘要: Apriori两个重要原理: 1.如果一个集合是频繁项集,则它的所有子集都是频繁项集。假设一个集合{A,B}是频繁项集,则它的子集{A}, {B} 都是频繁项集。 2.如果一个集合不是频繁项集,则它的所有超集都不是频繁项集。假设集合{A}不是频繁项集,则它的任何超集如{A,B},{A,B,C}必定也 阅读全文

posted @ 2020-11-19 22:34 RICH-ATONE 阅读(547) 评论(0) 推荐(0) 编辑

Hive表压缩

摘要: Hive数仓中建表尽量都采用压缩,采用压缩能极大的节省存储空间,减少成本消耗。 一般建表采用orc snappy压缩格式。如果load数据或者sqoop导入数据到hive中,不能直接使用压缩,可以建临时中间表,查询插入到压缩表中。总之,能节省成本就节省成本,压缩是个不错的选择。 同时也支持对表后期更 阅读全文

posted @ 2020-11-19 22:28 RICH-ATONE 阅读(1174) 评论(0) 推荐(0) 编辑

导航