会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
陈宏博
博客园
首页
新随笔
联系
订阅
管理
2018年5月30日
两个文本相似度算法实现和对比
摘要: 背景 最近做一个爬虫相关的项目,需要排除掉一些相似的链接,比如分页控件里上一页,下一页等等没什么用的链接. 编辑距离算法 编辑距离,又称Levenshtein距离(莱文斯坦距离也叫做Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越
阅读全文
posted @ 2018-05-30 14:04 陈宏博
阅读(10590)
评论(0)
推荐(2)
编辑
公告