摘要: 对两个数据表如A,B取JOIN操作的时候,其结果往往会出现NULL值的出现。 这种情况是非常不利于后续的分析与计算的,特别是当涉及到对这个数值列进行各种聚合函数计算的时候。 Spark为此提供了一个高级操作,就是:na.fill的函数。 其处理过程就是先构建一个MAP,如下: val map = M 阅读全文
posted @ 2020-10-15 16:03 PEAR2020 阅读(2753) 评论(0) 推荐(0) 编辑
摘要: 一、概念:DenseVector和SparseVector 密集向量的值就是一个普通的Double数组 稀疏向量由两个并列的数组 indices和values 组成 密集:[1.0,0.0,3.0] 其和一般的数组无异 稀疏:(3,[0,2],[1.0,3.0]) 其表示的含义(元素的个数,元素的下 阅读全文
posted @ 2020-10-15 11:43 PEAR2020 阅读(418) 评论(0) 推荐(0) 编辑
摘要: 一、StringIndexer 在使用Spark MLlib协同过滤ALS API的时候发现Rating的三个参数:用户id,商品名称,商品打分,前两个都需要是Int值。那么问题来了,当你的用户id,商品名称是String类型的情况下,我们必须寻找一个方法可以将海量String映射为数字类型。好在S 阅读全文
posted @ 2020-10-15 11:03 PEAR2020 阅读(812) 评论(0) 推荐(0) 编辑
摘要: 一、聚类定义 聚类分析(cluster analysis)就是给你一堆杂七杂八的样本数据把它们分成几个组,组内成员有一定的相似,不同组之间成员有一定的差别。 区别与分类分析(classification analysis) 你事先并不知道有哪几类、划分每个类别的标准。 比如垃圾分类就是分类算法,你知 阅读全文
posted @ 2020-10-15 10:10 PEAR2020 阅读(199) 评论(0) 推荐(1) 编辑