Loading

大型网站技术架构,8网站的安全架构之信息过滤与反垃圾

常用的信息过滤与反垃圾手段有以下几种。

8.3.1 文本匹配

 

敏感词过滤

 

Trie树的变种做文本匹配,空间和时间复杂度都比较好的有双数组Trie算法等。

TODO算法原理

另一种更简单的实现是通过构造多级Hash表进行文本匹配

 

 

8.3.2 分类算法

贝叶斯分类算法

TODO算法原理

通过对朴素贝叶斯算法增加特征值的关联依赖处理,得到TAN算法。

更进一步,通过对关联规则的聚类挖掘,得到更强大的算法,如ARCS算法(Association Rule Clustering System)等。

但由于贝叶斯分类算法简单,处理速度快,仍是许多实时在线系统反垃圾的首选。

 

分类算法除了用于反垃圾,还可以用于信息自动分类,门户网站可用该算法采集来的新闻稿件进行自动分类,分发到不同的频道。邮箱服务商根据邮件内容推送的个性化广告也可以使用分类算法提高投送相关度。

 

8.3.3 黑名单

按照黑名单列表过滤邮件

 

还可用于信息去重,如将文章标题或文章关键段落记录到黑名单中,以减少搜索引擎收录重复信息等用途。

 

可以使用Hash表实现黑名单。

 

在对过滤需求要求不完全精确的场景下,可用布隆过滤器代替Hash表。

TODO布隆过滤器原理

 

posted @ 2019-10-03 22:34  元宝爸爸  阅读(268)  评论(0编辑  收藏  举报