关于分类算法(classification)
从广外的一个朋友拿到了他们数据挖掘兴趣小组的PPT,翻了一下,有一个来自斯坦福的PPT,全英!不过我翻了一翻,受益匪浅,特别是分类算法,特此写个博文给记忆力不好的自己。
先说下背景,例如我们现在有了一封邮件,那么我们怎么根据邮件里一些关键的词语来给这封邮件分类?
首先,来个公式先
c是一个详细的类别,比如“朋友邮件”、“工作邮件”等等,而d则是关键词语(注意,关键词会有多个),上面等式的左边是指:在给出当前关键词的条件下,类型为c的概率,有变就不详细说了,可以翻看数理统计书- -
接下来利用相关统计学只是对其进行处理(抱歉,目前我这统计学水平只能这么讲给自己听了= =)
上面这个公式,就是最简化之后的公式了。
下面给出相关参数的计算方法:
上面第二算式有一个缺点:
•What if we have seen no training documents with the word fantastic and classified in the topic positive (thumbs-up)?
为了避免这种情况,因此要特地给他们加上一些数:
所以以上问题就解决了。
举个例子吧- - 这样大家都比较好懂
其实这些内容在公开课里边都有详细讲到,只是老师讲的较快而且没有给出相关例子,所以会比较难懂一点。