机器学习概要

根据学习方式分类:

  有监督学习

    分类:结果是离散的  http://blog.csdn.net/king523103/article/details/49128231

      贝叶斯分类:对小规模的数据表现很好,适合多分类任务,适合增量式训练。对输入数据的表达形式很敏感。

      knn:根据邻居投票

        优点:1. 思想简单,理论成熟,既可以用来做分类也可以用来做回归;2. 可用于非线性分类;3. 训练时间复杂度为O(n);4. 准确度高,对数据没有假设,对outlier不敏感

        缺点:1. 计算量大;2. 样本不平衡问题(即有些类别的样本数量很多,而其它样本的数量很少);3. 需要大量的内存;

      决策树:有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。

        决策树ID3算法,该算法是一信息为基础,以信息熵和信息增益度为衡量标准,从而实现对数据的归纳分类。

        C4.5 算法一种分类决策树算法 , 其核心算法是 ID3 算法。C4.5 算法继承了 ID3 算法的优点,并在以下几方面对 ID3 算法进行了改进,其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效

      基于主题模型的分类:特征,主题,文档三者之间的关系,跟普通分类有啥区别?不是两个文档词越相似,文档就越相关,两个文档可能属于同一类主题,但是他们包含的词差别很大,但是这些词都是和某一类主题强关联(条件概率),这样就能把文本上差别很大的文档分为相同主题;可以对文章计算出来一个主题;一个主题其实就是包含一些强关联的词

        LDA

        PLSA

      逻辑回归Logistic Regression(LR):构造一个Cost函数(损失函数),找损失函数的最小值(对应的参数),一般使用梯度下降法(Gradient Descent)

        Logistic回归优点:1、实现简单;2、分类时计算量非常小,速度很快,存储资源低;

        缺点:1、容易欠拟合,一般准确度不太高;2、只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),且必须线性可分;

      SVM:基于核函数,将特征升到高维空间,线性可分

          SVM算法优点:可用于线性/非线性分类,也可以用于回归;低泛化误差;容易解释;计算复杂度较低

        缺点:对参数和核函数的选择比较敏感;原始的SVM只比较擅长处理二分类问题(后来我们可以多训练一些分类器来解决这个问题)

      Boosting:

        找一些弱分类器(在某些方面分类效果好,但适应性差)按照一定权重组合在一起

        优点:容易实现,分类准确率较高,没有太多参数可以调;不会过拟合

        缺点:对outlier比较敏感; 

    回归:

      结果是连续的

      线性回归:梯度下降法,找损失函数最小值

      

  无监督学习

    聚类:http://blog.csdn.net/king523103/article/details/49128231

      基于划分聚类算法(partition clustering):k-means等

      基于层次聚类算法:

      基于密度聚类算法:

      基于网格的聚类算法

      基于神经网络的聚类算法

      基于统计学的聚类算法

      应用:Apriori算法:推荐领域的关联规则推荐

  半监督学习

  

  强化学习


  

 

posted @ 2017-11-16 15:48  悟法悟天  阅读(147)  评论(0编辑  收藏  举报