摘要: Spark - Frequent Pattern Mining 官方文档:https://spark.apache.org/docs/2.2.0/ml-frequent-pattern-mining.html 挖掘频繁项、项集、子序列或者其他子结构通常是大规模数据分析的第一步,这也是近些年数据挖掘领 阅读全文
posted @ 2020-09-29 17:31 HoLoong 阅读(658) 评论(1) 推荐(0) 编辑
摘要: Spark - Parquet 概述 Apache Parquet属于Hadoop生态圈的一种新型列式存储格式,既然属于Hadoop生态圈,因此也兼容大多圈内计算框架(Hadoop、Spark),另外Parquet是平台、语言无关的,这使得它的适用性很广,只要相关语言有对应支持的类库就可以用; Pa 阅读全文
posted @ 2020-09-29 16:27 HoLoong 阅读(4271) 评论(1) 推荐(1) 编辑