2020 年 10月 15 日随笔档案 - PEAR2020

2020年10月15日

摘要：对两个数据表如A，B取JOIN操作的时候，其结果往往会出现NULL值的出现。这种情况是非常不利于后续的分析与计算的，特别是当涉及到对这个数值列进行各种聚合函数计算的时候。 Spark为此提供了一个高级操作，就是：na.fill的函数。其处理过程就是先构建一个MAP，如下： val map = M 阅读全文

posted @ 2020-10-15 16:03 PEAR2020 阅读(2801) 评论(0) 推荐(0) 编辑

Spark ML 之稀疏和稠密向量

摘要：一、概念：DenseVector和SparseVector 密集向量的值就是一个普通的Double数组稀疏向量由两个并列的数组 indices和values 组成密集：[1.0,0.0,3.0] 其和一般的数组无异稀疏：(3,[0,2],[1.0,3.0]) 其表示的含义(元素的个数，元素的下阅读全文

posted @ 2020-10-15 11:43 PEAR2020 阅读(451) 评论(0) 推荐(0) 编辑

Spark ML 之如何将海量字符串映射为数字——StringIndexer/IndexToString

摘要：一、StringIndexer 在使用Spark MLlib协同过滤ALS API的时候发现Rating的三个参数：用户id，商品名称，商品打分，前两个都需要是Int值。那么问题来了，当你的用户id，商品名称是String类型的情况下，我们必须寻找一个方法可以将海量String映射为数字类型。好在S 阅读全文

posted @ 2020-10-15 11:03 PEAR2020 阅读(832) 评论(0) 推荐(0) 编辑

机器学习之聚类之 K-means算法

摘要：一、聚类定义聚类分析(cluster analysis)就是给你一堆杂七杂八的样本数据把它们分成几个组，组内成员有一定的相似，不同组之间成员有一定的差别。区别与分类分析(classification analysis) 你事先并不知道有哪几类、划分每个类别的标准。比如垃圾分类就是分类算法，你知阅读全文

posted @ 2020-10-15 10:10 PEAR2020 阅读(201) 评论(0) 推荐(1) 编辑

PEAR2020

公告