酒店爬虫的去重

在这个世界上,同一个事物,由于种种原因,在称呼上会存在细微的差别。比如“紫荆花酒店”和“紫荆花大酒店”指的是相同的一家酒店,但是在不同的OTA网站,或者酒店收录网站,可能使用的是不同名字。

因此,在使用爬虫做酒店的数据库时,对酒店的去重就是一项很重要的任务。

可以通过名字、地址和坐标进行酒店唯一性的判断

根据名字和地址进行去重,较好的方式是使用simhash的方式进行名称的近似匹配(参考http://www.cnblogs.com/linecong/archive/2010/08/28/simhash.html

在这之后可以继续使用所在的坐标进行去重

posted @ 2013-07-29 19:00  惡盈好謙  阅读(352)  评论(0编辑  收藏  举报