从小就学习不好

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

机器学习的几大类:

        1.推荐

        2.分类

        3.聚类

        4.回归

        5.用户画像

        6.深度学习

        7.人工神经网络

        8.关联分析

 

分类算法:

  1.朴素贝叶斯

  2.决策树

  3.随机森林

  4.支持向量机(SVM)

  5.隐马尔可夫模型

  6.遗传算法

 

分类属于有监督的学习过程,可以根据经验或者数学推导等辅助的方法给机器一些指导,帮助机器去噪,收敛,剪枝。让计算更加快捷和准确。

分类问题:

  1.二值分类:1或0----->是或否

  2.多值分类

  分类必须有两样东西:

    1.标签(label)

    2.训练数据

  有label的算法------>监督学习 ------>分类,回归       

    监督的是什么?   label

    数据(大量)---->模型----->预测

  无label的算法------>无监督学习------>聚类

------------------------------------------------------------------------------

分类

  定义:给定一个对象X,将其划分到预定义好的某一个类别Yi中

  – 输入:X

  – 输出:Y(取值于有限集合{y1,y2,……,yn})

 二值分类例子:

  假设:给一篇文章,判断是军事还是财经

  输入的就是文章,输出的就是0或1(军事,财经) 

--------------------------------------------------------------------------------

  类别数量:

    1.二值分类

      • Y的取值只有两种,如:email是否垃圾邮件

    2.多值分类

      • Y的取值大于两个,如:网页分类{政治,经济,体育,……}

  类别关系:

    1.水平关系

      • 类别之间无包含关系

    2.层级关系

      • 类别形成等级体系

    分类问题一般不考虑层级关系,聚类问题一般考虑层级关系

  评估质量:

    准确率,召回率,auc.....

  什么决定了评估质量?

    两个因素:

      1.好的学习教材--------->数据---------->预处理(分词,TFIDF,离散化,连续值)

      2.好的学习方法--------->算法

分类任务的解决流程:

  假设:新闻分类

  1.特征表示:x={昨日,是,国内,投资,市场……}     x表示文章(学习的教材),然后分词

  2.特征选择:X={国内,投资,市场……}   把好的特征留下来

  3.模型选择:朴素贝叶斯分类器 (学习方法)

  4.训练数据准备

  5.模型训练

  6.预测(分类)

  7.评测

分类算法的大致分类:

  1.概率分类器

    – NB

    – 计算待分类对象属于每个类别的概率,选择概率最大的类别作为最终输出

  2.空间分割

    – SVM

  3.其他

    – KNN

    KNN很特别,其他的算法都是训练+预测,KNN是直接预测,但是计算量非常大

---------------------------------------------------------------------------------------------------------------

朴素贝叶斯:

  - 概率模型

  - 基于贝叶斯原理

  

  假设x是一片文章,yi就是什么类别(军事,财经...)的概率

  • P(X):待分类对象自身的概率,可忽略

    假设有1w篇文章,那文章自身的概率就是1/1w,每篇都是一样,所以可以忽略

  • P(yi):每个类别的先验概率,如P(军事)

    在训练之前就可以得到的一个值

    假设有100片文章

    30---军事   50---财经   20---生活

    yi(军事 | 财经 | 生活)

    p(军事)=30/100

    p(财经)=50/100

    p(生活)=20/100

  • P(X|yi):每个类别产生该对象的概率

    假设一篇文章x分成了n个单词x1,x2....xn

    那么yi(一个类别)产生一片文章的概率,可以近似的看成yi产生一个词语的概率(x1,x2,x3...)

    这篇文章包含所有的词语的话,对所有的词语做一个乘积(x1|yi)*(x2|yi)....(x3|yi)

    所以

      =

 

公式中每一项是怎么计算的?

    策略:最大似然估计(maximum likehood estimation,MLE)

      – P(Yi)

        • Count(yi):类别为yi的对象在训练数据中出现的次数

      例如:

        • 总共训练数据1000篇,其中军事类300篇,科技类240篇,生活类140篇,……

        • P(军事)=0.3, P(科技)=0.24, P(生活)=0.14,……

      

      

      – P(xj|yi)

        • Count(xj, yi):特征xj和类别yi在训练数据中同时出现的次数

      – 例如:

        • 总共训练数据1000篇,其中军事类300篇,科技类240篇,生活类140篇,……

        • 军事类新闻中,谷歌出现15篇,投资出现9篇,上涨出现36篇

          Count(yi):军事文章的和为300

          Count(xj, yi):既是军事又出现了谷歌这个词的文章15/300=0.05

          • P(谷歌|军事)=0.05, P(投资|军事)=0.03, P(上涨|军事)=0.12,……

    上面的每个值都能计算了,就可以计算出每一篇文章那个类别的概率最大,就可以预测出来了(预测值为概率最大的)

-----------------------------------------------------------------------------------------------------------------------------------------------------------

例如:

  

  – 给定X,计算所有的p(yi|X),选择概率值最大的yi作为输出

    • X={国内,投资,市场,……}

    • P(军事|X)=P(国内|军事)* P(投资|军事)* P(市场|军事)……P(军事)

    • 同样计算P(科技|X) P(生活|X)....

------------------------------------------------------------------------------------------------------------------------------------------------------------

评测指标怎么看?

  混淆表:

    

  验证的时候是不能用测试集的,因为就是在测试集上做的

    • 准确度Accuracy:(C11+C22)/(C11+C12+C21+C22)

    • 精确率Precision(y1):C11/(C11+C21)

      • 召回率Recall(y1):C11/(C11+C12)

例子:

  

 

  假设有100篇文章,但是在测试之前我们就知道有60篇是军事,40篇是科技

  但是计算器反馈是50+5篇军事的,10+35篇科技的 

  • 准确度Accuracy:(50+35)/(35+5+10+50)=85%

  • 精确率Precision(y1):50/(50+5)=90.9%

  • 召回率Recall(y1):50/(50+10)=83.3%

  一般精确率在70%以上就可以在线上使用了,但是不能只是精确率高召回率低或者精确率低召回率高

  通常我们还得看一个指标:auc

    auc:负样本排在正样本前面的概率(不太好演示....可以度娘)

    auc计算: cat xxx | sort -k2g | awk '($1==0){++x;a+=y;}($2==1){++y;}END{print 1.0-a/(x*y)}'

朴素贝叶斯:

  优点:简单有效,结果是概率,对二值和多值同样适用(前提是分词一定要好,IFIDF权重一定要把握好)

  缺点:独立性假设有时不合理

 

posted on 2019-03-10 20:09  从小就学习不好  阅读(394)  评论(0编辑  收藏  举报