摘要: 贝叶斯过滤器过滤垃圾邮件什么是贝叶斯过滤器?垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语;后者则是计算邮件文本的校验码,再与已知的垃圾邮件进行对比。它们的识别效果都不理想... 阅读全文
posted @ 2014-09-30 18:26 如果的事 阅读(1317) 评论(0) 推荐(0) 编辑
摘要: 朴素贝叶斯分类器一、贝叶斯定理所谓"条件概率"(Conditional probability),就是指在事件B发生的情况下,事件A发生的概率,用P(A|B)来表示。根据文氏图,可以发现同理可得,所以,即其中,P(A)称为"先验概率"(Prior probability),即在B事件发生之前,我们对... 阅读全文
posted @ 2014-09-30 18:19 如果的事 阅读(694) 评论(0) 推荐(0) 编辑
摘要: TF-IDF 加权及其应用TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索的常用加权技术。TF-IDF是一种统计方法,用以评估某个单词对于一个文档集合(或一个语料库)中的其中一份文件的重要程度。单词的重要性随着它在文件中出现的次数成... 阅读全文
posted @ 2014-09-30 17:41 如果的事 阅读(4861) 评论(0) 推荐(0) 编辑
摘要: 相似图片搜索相似图片搜索是指怎么计算两张图片的相似程度,这里的关键技术叫做"感知哈希算法"(Perceptual hash algorithm),它的作用是对每张图片生成一个"指纹"(fingerprint)字符串,然后比较不同图片的指纹。结果越接近,就说明图片越相似。一、感知哈希算法1、缩小尺寸将... 阅读全文
posted @ 2014-09-30 15:54 如果的事 阅读(1437) 评论(0) 推荐(0) 编辑