关于分类算法(classification)

  从广外的一个朋友拿到了他们数据挖掘兴趣小组的PPT,翻了一下,有一个来自斯坦福的PPT,全英!不过我翻了一翻,受益匪浅,特别是分类算法,特此写个博文给记忆力不好的自己。

  先说下背景,例如我们现在有了一封邮件,那么我们怎么根据邮件里一些关键的词语来给这封邮件分类?

  首先,来个公式先

  c是一个详细的类别,比如“朋友邮件”、“工作邮件”等等,而d则是关键词语(注意,关键词会有多个),上面等式的左边是指:在给出当前关键词的条件下,类型为c的概率,有变就不详细说了,可以翻看数理统计书- -

  接下来利用相关统计学只是对其进行处理(抱歉,目前我这统计学水平只能这么讲给自己听了= =)

 

上面这个公式,就是最简化之后的公式了。

下面给出相关参数的计算方法:

  上面第二算式有一个缺点:

  •What if we have seen no training documents with the word fantastic  and classified in the topic positive (thumbs-up)?
 
  为了避免这种情况,因此要特地给他们加上一些数:
  
 
  所以以上问题就解决了。
 
  举个例子吧- -  这样大家都比较好懂
 

 

  其实这些内容在公开课里边都有详细讲到,只是老师讲的较快而且没有给出相关例子,所以会比较难懂一点。

posted @ 2013-06-16 22:52  yutoulck  阅读(732)  评论(0编辑  收藏  举报