摘要: 贝叶斯分类 贝叶斯分类原理 基于贝叶斯定理是在18世纪提出来的,经过近300年的发展贝叶斯相关理论已经发展的较为成熟,其中贝叶斯分类算法在邮件过滤领域中被广泛应用。 贝叶斯的分类的关键在与概率推论,在各种不确定的田间下,通过变量出现的在所属分类的概率,在一定的阀值下确定分类。分类器基于这样一个假设:一个变量的各种特征都是独立的,尽管与现实生活中的情况是不相符的,例如一个人的皮肤颜色是黑色... 阅读全文
posted @ 2015-05-19 20:13 何黎 阅读(291) 评论(0) 推荐(0) 编辑
摘要: 分词的目的是将测试文本按一定的根据一定的规则进行分词处理[2];便于提取文本的特征值,为文本提供特征值对比的词组。英文词组是以单词为单位,以空格为分隔,在分词上具有巨大的便利性,相对而言中文因为自身常以词语、短语、俗语等表现形式,因此中文分词具有很大的不确定性。我国经过多年的发展已经取得巨大的成就,出现了一系列具有较高的分词准确率和快速的分词系统。并且在1992年我国就制订了《信息处理用现代汉语分... 阅读全文
posted @ 2015-05-19 19:53 何黎 阅读(1634) 评论(0) 推荐(0) 编辑
摘要: 1.1 反垃圾邮件的研究与发展 1.1.1 垃圾邮件定义 垃圾邮件,基本上在20世纪末期开始泛滥开来,邮件的广泛使用,以其成本低廉,传输便利的优势,使得邮件得到了商业组织的重视。在商业利益的驱动下,垃圾邮件开始在互联网上泛滥成灾。 1> 垃圾邮件(Email Spam)是指未经用户同意而接收到的电子邮件。具有以下特点[7]: (1) 未经用户同意,与用户不相关; (2) 以欺骗的形式获取邮件地址;... 阅读全文
posted @ 2015-05-19 19:46 何黎 阅读(3823) 评论(0) 推荐(0) 编辑
摘要: 1.1 邮件的各种协议 电子邮件是一种用电子手段提供信息交换的现代化通讯方式,让人们能够快捷的传递消息,它与传统的信件通信方式相比有着巨大的优势。电子邮件的通信与其他的Telnet和FTP服务不同而是使用了一种称为“存储转发”的一步通信方式,即信息的收发者不需要同时存在,即可实现信息的传递。当前的邮件系统多为TCP/IP电子邮件系统,采取的是端到端的传输方式。在这端到端的需要遵循一定的基本协议和标... 阅读全文
posted @ 2015-05-19 19:41 何黎 阅读(358) 评论(0) 推荐(0) 编辑