pyhon简单比较文本相似度的方法

1.安装

命令:sudo apt-get install python-Levenshtein

2.主要使用

import Levenshtein

similarRate = Levenshtein.ratio('第一章 刺杀','第1章 刺杀')

print similarRate 

3.其它常见使用

1. Levenshtein.hamming(str1, str2)

注:要求str1和str2必须长度一致。是描述两个等长字串之间 对应位置上不同字符的个数。如

2. Levenshtein.distance(str1, str2)

注:描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括插入、删除、替换 。如

 

 

单词单位和字符单位还是有区别的

 

posted @ 2017-03-24 18:36  lingwang3  阅读(433)  评论(1编辑  收藏  举报