pyhon简单比较文本相似度的方法

1.安装

命令：sudo apt-get install python-Levenshtein

2.主要使用

import Levenshtein

similarRate = Levenshtein.ratio('第一章刺杀','第1章刺杀')

print similarRate

3.其它常见使用

1. Levenshtein.hamming(str1, str2)

注：要求str1和str2必须长度一致。是描述两个等长字串之间对应位置上不同字符的个数。如

2. Levenshtein.distance(str1, str2)

注：描述由一个字串转化成另一个字串最少的操作次数，在其中的操作包括插入、删除、替换。如

单词单位和字符单位还是有区别的

posted @ 2017-03-24 18:36 lingwang3 阅读(464) 评论(1) 收藏举报

刷新页面返回顶部

lingwang3