摘要: 从广外的一个朋友拿到了他们数据挖掘兴趣小组的PPT,翻了一下,有一个来自斯坦福的PPT,全英!不过我翻了一翻,受益匪浅,特别是分类算法,特此写个博文给记忆力不好的自己。 先说下背景,例如我们现在有了一封邮件,那么我们怎么根据邮件里一些关键的词语来给这封邮件分类? 首先,来个公式先 c是一个详细的类别,比如“朋友邮件”、“工作邮件”等等,而d则是关键词语(注意,关键词会有多个),上面等式的左边是指:在给出当前关键词的条件下,类型为c的概率,有变就不详细说了,可以翻看数理统计书- - 接下来利用相关统计学只是对其进行处理(抱歉,目前我这统计学水平只能这么讲给自己听了= =)上面这个公式... 阅读全文
posted @ 2013-06-16 22:52 yutoulck 阅读(732) 评论(0) 推荐(0) 编辑