摘要: 聚类 数据没有标注。无监督技术。 K-均值聚类 层次聚类:是一个结构化的聚类方法,最终可得到多层的聚类结果,其中每个类族可能包含多个子类族。因为每个子类族与父类族连接,所以也称为树形聚类。 离群值:归一化/标准化解决。 降维 主成分分析 PCA 奇异值分解 SVD SVD试图将一个m X n矩阵分解 阅读全文
posted @ 2016-08-15 16:02 跳出 阅读(978) 评论(0) 推荐(0) 编辑
摘要: 处理和转换数据 1)过滤掉或删除非规整数或有缺陷的数据 2)填充非规整或有缺陷的数据(零值,全局期望,中值) 3)对异常值做鲁棒处理 (鲁棒回归) 4)对可能的异常值进行转换 利用如对数或高斯核对其转换,有助于降低变量存在的值跳跃的影响,并将非线性关系变为线性的。 矩阵分解:协同过滤 最小二乘法AL 阅读全文
posted @ 2016-08-15 14:35 跳出 阅读(295) 评论(0) 推荐(0) 编辑
摘要: 广播变量、累加器、collect spark集群由两类集群构成:一个驱动程序,多个执行程序。 1、广播变量 broadcast 广播变量为只读变量,它由运行sparkContext的驱动程序创建后发送给会参与计算 的节点。也可被非驱动程序所在节点(即工作节点)访问,访问是调用该变量的value方法。 阅读全文
posted @ 2016-08-15 12:59 跳出 阅读(367) 评论(0) 推荐(0) 编辑
摘要: 在大数据处理场景中,多表Join是非常常见的一类运算。为了便于求解,通常会将多表join问题转为多个两表连接问题。两表Join的实现算法非常多,一般我们会根据两表的数据特点选取不同的join算法,其中,最常用的两个算法是map-side join和reduce-side join。本文将介绍如何在a 阅读全文
posted @ 2016-08-15 10:32 跳出 阅读(625) 评论(0) 推荐(0) 编辑