关于分类算法（classification）

　　从广外的一个朋友拿到了他们数据挖掘兴趣小组的PPT，翻了一下，有一个来自斯坦福的PPT，全英！不过我翻了一翻，受益匪浅，特别是分类算法，特此写个博文给记忆力不好的自己。

　　先说下背景，例如我们现在有了一封邮件，那么我们怎么根据邮件里一些关键的词语来给这封邮件分类？

　　首先，来个公式先

　　c是一个详细的类别，比如“朋友邮件”、“工作邮件”等等，而d则是关键词语（注意，关键词会有多个），上面等式的左边是指：在给出当前关键词的条件下，类型为c的概率，有变就不详细说了，可以翻看数理统计书- -

　　接下来利用相关统计学只是对其进行处理（抱歉，目前我这统计学水平只能这么讲给自己听了= =）

上面这个公式，就是最简化之后的公式了。

下面给出相关参数的计算方法：

　　上面第二算式有一个缺点：

　　•What if we have seen no training documents with the word fantastic and classified in the topic positive (thumbs-up)?

　　为了避免这种情况，因此要特地给他们加上一些数：

　　所以以上问题就解决了。

　　举个例子吧- - 这样大家都比较好懂

　　其实这些内容在公开课里边都有详细讲到，只是老师讲的较快而且没有给出相关例子，所以会比较难懂一点。

posted @ 2013-06-16 22:52 yutoulck 阅读(747) 评论(0) 编辑收藏举报

刷新页面返回顶部

yutoulck