上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 26 下一页
摘要: 一、需求: 现有customers,orders,orderItems,goods表,记录电商相关信息,需要给每类customers推荐他们最感兴趣的商品 表表关系为: 二、思路: 获得特征:组成代表顾客消费特征的DataFrame(如用户年龄,用户会员等级) 归一化特征:除了ID标识,所有特征归一 阅读全文
posted @ 2020-10-16 09:42 PEAR2020 阅读(484) 评论(0) 推荐(0) 编辑
摘要: 一、pom.xml <!-- https://mvnrepository.com/artifact/org.jfree/jfreechart --> <dependency> <groupId>org.jfree</groupId> <artifactId>jfreechart</artifactI 阅读全文
posted @ 2020-10-16 08:49 PEAR2020 阅读(232) 评论(0) 推荐(0) 编辑
摘要: 对两个数据表如A,B取JOIN操作的时候,其结果往往会出现NULL值的出现。 这种情况是非常不利于后续的分析与计算的,特别是当涉及到对这个数值列进行各种聚合函数计算的时候。 Spark为此提供了一个高级操作,就是:na.fill的函数。 其处理过程就是先构建一个MAP,如下: val map = M 阅读全文
posted @ 2020-10-15 16:03 PEAR2020 阅读(2800) 评论(0) 推荐(0) 编辑
摘要: 一、概念:DenseVector和SparseVector 密集向量的值就是一个普通的Double数组 稀疏向量由两个并列的数组 indices和values 组成 密集:[1.0,0.0,3.0] 其和一般的数组无异 稀疏:(3,[0,2],[1.0,3.0]) 其表示的含义(元素的个数,元素的下 阅读全文
posted @ 2020-10-15 11:43 PEAR2020 阅读(451) 评论(0) 推荐(0) 编辑
摘要: 一、StringIndexer 在使用Spark MLlib协同过滤ALS API的时候发现Rating的三个参数:用户id,商品名称,商品打分,前两个都需要是Int值。那么问题来了,当你的用户id,商品名称是String类型的情况下,我们必须寻找一个方法可以将海量String映射为数字类型。好在S 阅读全文
posted @ 2020-10-15 11:03 PEAR2020 阅读(832) 评论(0) 推荐(0) 编辑
摘要: 一、聚类定义 聚类分析(cluster analysis)就是给你一堆杂七杂八的样本数据把它们分成几个组,组内成员有一定的相似,不同组之间成员有一定的差别。 区别与分类分析(classification analysis) 你事先并不知道有哪几类、划分每个类别的标准。 比如垃圾分类就是分类算法,你知 阅读全文
posted @ 2020-10-15 10:10 PEAR2020 阅读(201) 评论(0) 推荐(1) 编辑
摘要: 一、堆内存图 新生区由于对象产生的比较多并且大都是朝生夕灭的,所以直接采用复制算法。 而养老区生命力很强,则采用标记-清理算法,针对不同情况使用不同算法。 二、各种GC以及触发条件 Minor GC:从年轻代回收内存 触发条件: Eden区域满 ​ 新创建的对象大小 > Eden所剩空间 对象分配原 阅读全文
posted @ 2020-10-14 10:24 PEAR2020 阅读(90) 评论(0) 推荐(0) 编辑
摘要: 一、使用版本 二、步骤 cd $REDIS_HOME # 切换至redis解压目录 make MALLOC=libc # 执行编译 cd src # 切换至编译生成的src目录 make install PREFIX=$REDIS_HOME # 执行安装,指定安装位置为redis解压目录 # 配置r 阅读全文
posted @ 2020-10-12 17:07 PEAR2020 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 一、Connected Components算法 Connected Components即连通体算法用id标注图中每个连通体,将连通体中序号最小的顶点的id作为连通体的id。如果在图G中,任意2个顶点之间都存在路径,那么称G为连通图,否则称该图为非连通图,则其中的极大连通子图称为连通体,如下图所示 阅读全文
posted @ 2020-10-12 11:48 PEAR2020 阅读(727) 评论(0) 推荐(0) 编辑
摘要: Pregel是Google提出的用于大规模分布式图计算框架 图遍历(BFS) 单源最短路径(SSSP) PageRank计算 Pregel的计算由一系列迭代组成,称为supersteps Pregel迭代过程 每个顶点从上一个superstep接收入站消息 计算顶点新的属性值 在下一个superst 阅读全文
posted @ 2020-10-11 16:52 PEAR2020 阅读(197) 评论(0) 推荐(0) 编辑
上一页 1 ··· 14 15 16 17 18 19 20 21 22 ··· 26 下一页