机器学习概要

根据学习方式分类：

　　有监督学习

　　　　分类：结果是离散的 http://blog.csdn.net/king523103/article/details/49128231

　　　　　　贝叶斯分类：对小规模的数据表现很好，适合多分类任务，适合增量式训练。对输入数据的表达形式很敏感。

　　　　　　knn：根据邻居投票

　　　　　　　　优点：1. 思想简单，理论成熟，既可以用来做分类也可以用来做回归；2. 可用于非线性分类；3. 训练时间复杂度为O(n)；4. 准确度高，对数据没有假设，对outlier不敏感

　　　　　　　　缺点：1. 计算量大；2. 样本不平衡问题（即有些类别的样本数量很多，而其它样本的数量很少）；3. 需要大量的内存；

　　　　　　决策树：有两大优点：1）决策树模型可以读性好，具有描述性，有助于人工分析；2）效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度。

　　　　　　　　决策树ID3算法，该算法是一信息为基础，以信息熵和信息增益度为衡量标准，从而实现对数据的归纳分类。

　　　　　　　　C4.5 算法一种分类决策树算法 , 其核心算法是 ID3 算法。C4.5 算法继承了 ID3 算法的优点，并在以下几方面对 ID3 算法进行了改进，其缺点是：在构造树的过程中，需要对数据集进行多次的顺序扫描和排序，因而导致算法的低效

　　　　　　基于主题模型的分类：特征，主题，文档三者之间的关系，跟普通分类有啥区别？不是两个文档词越相似，文档就越相关，两个文档可能属于同一类主题，但是他们包含的词差别很大，但是这些词都是和某一类主题强关联(条件概率)，这样就能把文本上差别很大的文档分为相同主题；可以对文章计算出来一个主题；一个主题其实就是包含一些强关联的词

　　　　　　　　LDA

　　　　　　　　PLSA

　　　　　　逻辑回归Logistic Regression(LR)：构造一个Cost函数（损失函数），找损失函数的最小值(对应的参数)，一般使用梯度下降法（Gradient Descent）

　　　　　　　　Logistic回归优点：1、实现简单；2、分类时计算量非常小，速度很快，存储资源低；

　　　　　　　　缺点：1、容易欠拟合，一般准确度不太高；2、只能处理两分类问题（在此基础上衍生出来的softmax可以用于多分类），且必须线性可分；

　　　　　　SVM：基于核函数，将特征升到高维空间，线性可分

　　　　　　　SVM算法优点：可用于线性/非线性分类，也可以用于回归；低泛化误差；容易解释；计算复杂度较低

　　　　　　　　缺点：对参数和核函数的选择比较敏感；原始的SVM只比较擅长处理二分类问题（后来我们可以多训练一些分类器来解决这个问题）

　　　　　　Boosting：

　　　　　　　　找一些弱分类器(在某些方面分类效果好，但适应性差)按照一定权重组合在一起

　　　　　　　　优点：容易实现，分类准确率较高，没有太多参数可以调；不会过拟合

　　　　　　　　缺点：对outlier比较敏感；

　　　　回归：

　　　　　　结果是连续的

　　　　　　线性回归：梯度下降法，找损失函数最小值

　　无监督学习

　　　　聚类：http://blog.csdn.net/king523103/article/details/49128231

　　　　　　基于划分聚类算法（partition clustering)：k-means等

　　　　　　基于层次聚类算法：

　　　　　　基于密度聚类算法：

　　　　　　基于网格的聚类算法

　　　　　　基于神经网络的聚类算法

　　　　　　基于统计学的聚类算法

　　　　　　应用：Apriori算法：推荐领域的关联规则推荐

　　半监督学习

　　强化学习

posted @ 2017-11-16 15:48 悟法悟天阅读(147) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

头脑风暴

机器学习概要

公告