网页去重和网页反作弊

今天在阅读<Lucene搜索引擎开发进阶实战,第一章,网络爬虫策略,

 

里面提到了网页去重,

网页内容重复分为几类,完全重复,仅内容重复,仅布局重复,部分重复.

针对网页去重,有很多算法支撑,

Shingling算法;I-Match算法;Google专用的SimHash算法(公认最优秀);SpotSig算法

 

还提到了网页作弊:

网页作弊常见的包括内容作弊;链接作弊;隐藏作弊,以及Web2.0作弊

 

而常见的反作弊方式:

信任传播模式;不信任传播模式;异常发现模式

相对应以上反作弊模式,有TrustRank;BadRank;SpamRank算法

posted @ 2016-01-14 08:57  simplelovecs  阅读(652)  评论(0编辑  收藏  举报