摘要: 背景 最近做一个爬虫相关的项目,需要排除掉一些相似的链接,比如分页控件里上一页,下一页等等没什么用的链接. 编辑距离算法 编辑距离,又称Levenshtein距离(莱文斯坦距离也叫做Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越 阅读全文
posted @ 2018-05-30 14:04 陈宏博 阅读(10590) 评论(0) 推荐(2) 编辑