pyhon简单比较文本相似度的方法
1.安装
命令:sudo apt-get install python-Levenshtein
2.主要使用
import Levenshtein
similarRate = Levenshtein.ratio('第一章 刺杀','第1章 刺杀')
print similarRate
3.其它常见使用
1. Levenshtein.hamming(str1, str2)
注:要求str1和str2必须长度一致。是描述两个等长字串之间 对应位置上不同字符的个数。如
2. Levenshtein.distance(str1, str2)
注:描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括插入、删除、替换 。如
单词单位和字符单位还是有区别的