摘要:
1 sklearn简介 Scikit learn(sklearn)是机器学习中的第三方模块,封装了常用的机器学习算法,涉及回归、降维、分类以及聚类等,提供python接口。 虽然sklearn容纳的算法众多,但使用其中大多数算法的模式(套路)都是一样的,一般流程如下: 1 引入相关数据(包括训练集与 阅读全文
摘要:
顶级数据挖掘会议ICDM于2006年12月评选出了数据挖掘领域的十大经典算法,kNN便是其中一个。 kNN算法的思想是:在训练集中选取与输入数据最近的k个邻居,统计k个邻居中出现次数最多的类别,以此作为该输入数据的类别。这是非常合理的一个想法,因为“物以类聚,人以群分”,隶属于聚类算法的k mean 阅读全文
摘要:
假设随机问很多人同一个问题,然后将许多份回答整合起来,通常情况下会发现这个合并的答案比一个专家的答案还要好。这就如同俗语所说“三个臭皮匠,顶个诸葛亮”,也好比对某个问题进行民主投票一样。机器学习中集成学习的思想与之类似。 在分类问题中,传统机器学习方法是在一个由各种可能的函数构成的假设空间中寻找一个 阅读全文
摘要:
朴素贝叶斯(Naïve Bayes)属于监督学习算法,实现简单,学习效率高;由于建立在贝叶斯理论之上,涉及到统计学方法,所以在大样本量下会有较好的表现,当然样本需要在一定程度上反映真实分布情况。 该算法的一条假设为:输入的特征向量的各分量之间两两条件独立。因为这条假设比较严格,能够完全符合该假设的应 阅读全文
摘要:
机器学习固然是当今解决众多任务的有效方法,但实际使用这个方法时依然需要注意几个问题: 1 数据方面 1.1 训练数据量 需要大量数据,才能让多数机器学习算法正常工作。即便对于非常简单的问题,一般也需要数千的样本,对于复杂的问题,比如图像或语音识别,可能需要数百万的样本。特别是在深度学习中,数据在很大 阅读全文