机器学习有关分类的算法

有关智能优化算法：
参考学习：
https://blog.csdn.net/qq_25225255/article/details/82355211
https://blog.csdn.net/sinat_32547403/article/details/73008127
0>梯度下降
1>进化类算法
遗传算法
差分进化算法
免疫算法
2>群智能算法
粒子群（PSO）
蚁群（ACO）
3>模拟退火算法
4>禁忌搜索算法
5>网格搜索法分离间隔优化
参考学习：https://blog.csdn.net/sinat_32547403/article/details/73008127

有关分类算法：
决策树：

1.复杂的情况下也是一样，对于每一个特征，找到一个使得Gini值最小的分割点（这个分割点可以是>,<,>=这样的判断，也可以是=，!=），然后比较每个特征之间最小的Gini值，作为当前最优的特征的最优分割点（这实际上涉及到了两个步骤，选择最优特征以及选择最优分割点）。
2.在第一步完成后，会生成两个叶节点，我们对这两个叶节点做判断，计算它的Gini值是否足够小（若是，就将其作为叶子不再分类）
3.将上步得到的叶节点作为新的集合，进行步骤1的分类，延伸出两个新的叶子节点（当然此时该节点变成了父节点）
4.循环迭代至不再有Gini值不符合标准的叶节点、
随机森林：
鉴于决策树容易过拟合的缺点，随机森林采用多个决策树的投票机制来改善决策树，我们假设随机森林使用了m棵决策树，那么就需要产生m个一定数量的样本集来训练每一棵树，如果用全样本去训练m棵决策树显然是不可取的，全样本训练忽视了局部样本的规律，对于模型的泛化能力是有害的

贝叶斯分类·

设每个数据样本用一个n维特征向量来描述n个属性的值，即:X={x1，x2，…，xn}，假定有m个类，分别用C1, C2,…，Cm表示。给定一个未知的数据样本X(即没有类标号)，若朴素贝叶斯分类法将未知的样本X分配给类Ci，则一定是
P(Ci|X)>P(Cj|X) 1≤j≤m，j≠i 根据贝叶斯定理
由于P(X)对于所有类为常数，最大化后验概率P(Ci|X)可转化为最大化先验概率P(X|Ci)P(Ci)。如果训练数据集有许多属性和元组，计算P(X|Ci)的开销可能非常大，为此，通常假设各属性的取值互相独立，这样
先验概率P(x1|Ci)，P(x2|Ci)，…，P(xn|Ci)可以从训练数据集求得。
根据此方法，对一个未知类别的样本X，可以先分别计算出X属于每一个类别Ci的概率P(X|Ci)P(Ci)，然后选择其中概率最大的类别作为其类别。

朴素贝叶斯算法成立的前提是各属性之间互相独立。当数据集满足这种独立性假设时,分类的准确度较高，否则可能较低。另外，该算法没有分类规则输出。

KNN:

根据邻近样本决定测试样本的类别。

kmeans:

kmeans的计算方法如下：
1 随机选取k个中心点
2 遍历所有数据，将每个数据划分到最近的中心点中
3计算每个聚类的平均值，并作为新的中心点
4 重复2-3，直到这k个中线点不再变化（收敛了），或执行了足够多的迭代

增量学习：

不断从新样本中学习新知识，并保存大部分以前已经学过的知识。

posted @ 2019-06-22 09:21 princeness 阅读(1382) 评论(0) 收藏举报

刷新页面返回顶部

princeness

机器学习有关分类的算法

公告