数据挖掘算法、ML - 随笔分类 - 王晓成

协同过滤

摘要：随着Web2.0的发展，如今已经进入了一个数据爆炸的时代。人们想要找到自己需要的信息也越来越难。 –因此有了Search，在用户对自己需求相对明确的时候，用Search能很快的找到自己需要的数据 –但很多情况下，用户其实并不明确自己的需要，或者他们需要更加符合他们个人口味和喜好的结果，因此出现了Re 阅读全文

posted @ 2018-10-24 19:03 王晓成阅读(546) 评论(0) 推荐(0)

（转）K-近邻算法（KNN）

摘要：K-近邻算法（KNN）概述 KNN是通过测量不同特征值之间的距离进行分类。它的思路是：如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别，则该样本也属于这个类别，其中K通常是不大于20的整数。KNN算法中，所选择的邻居都是已经正确分类的对象。该方法在定类决策上只阅读全文

posted @ 2018-10-24 16:09 王晓成阅读(355) 评论(0) 推荐(0)

贝叶斯、朴素贝叶斯及调用spark官网 mllib NavieBayes示例

摘要：贝叶斯法则机器学习的任务：在给定训练数据A时，确定假设空间B中的最佳假设。最佳假设：一种方法是把它定义为在给定数据A以及B中不同假设的先验概率的有关知识下的最可能假设贝叶斯理论提供了一种计算假设概率的方法，基于假设的先验概率、给定假设下观察到不同数据的概率以及观察到的数据本身先验概率和后验概阅读全文

posted @ 2018-10-24 11:58 王晓成阅读(952) 评论(0) 推荐(0)

决策树之ID3，C4.5及CART

摘要：决策树学习是应用最广的归纳推理算法之一,是一种逼近离散值函数的方法，主要的算法有：ID3算法、C4.5算法及CART。在机器学习中，决策树是一种预测模型，代表的是一种对象属性与对象值之间的一种映射关系，每一个节点代表某个对象，树中的每一个分叉路径代表某个可能的属性值，而每一个叶子节点则对应从根节点阅读全文

posted @ 2018-10-23 18:15 王晓成阅读(1073) 评论(0) 推荐(0)

kmeans

摘要：K均值（K-means）算法 K-means 算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为形心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各簇的形心的值，直至得到最好的聚类结果。（形心可以是实际的点、或者是虚拟点）假阅读全文

posted @ 2018-10-23 16:17 王晓成阅读(992) 评论(0) 推荐(0)

Spark下的FP-Growth和Apriori

摘要：基本概念关联分析是一种在大规模数据集中寻找有趣关系的非监督学习算法。这些关系可以有两种形式：频繁项集或者关联规则。频繁项集（frequent item sets)是经常出现在一块的物品的集合，关联规则(association rules)暗示两种物品之间可能存在很强的关系。下图是一个乒乓球店的交阅读全文

posted @ 2018-10-23 14:10 王晓成阅读(2169) 评论(0) 推荐(0)

公告

随笔分类 - 数据挖掘算法、ML