python 文本相似度

import difflib
def stri_similar(s1,s2):
    return difflib.SequenceMatcher(None,s1,s2).quick_ratio()
data1 = '你好啊'
data2 = '你好'
# for i in range(len(data1)):
#     s1 = data1[i]
#     s2 = data2[i]
#     print(stri_similar(s1,s2) )
# print(stri_similar(data1,data2) )

#相似比对比
#顺序对比法：两个列表按顺序对比 缺点：计算量小 ； 优点：相似度对比准确度低
#遍历对比法：一个列表遍历另一个列表的全部，一段对比每一段。 缺点：计算量大 ； 优点：相似度对比更有准确度
d = ['长短搭配，', '尽量减少接头，', '以节约钢材。']
text = ['搭配，', '尽少接头，', '以节约钢材。']

def contrast(text,d):
    try:
        count = 0
        for i in range(len(text)): #遍历段落
            count1 = 0
            if len(text[i]) > len(d[i]):
                c = text[i]
                t = d[i]
            else :
                c = d[i]
                t = text[i]

            for p in c: #遍历段落字符
                if p in t:
                    count1 += 1
            count += count1/len(c)
        # print('{:.2f} {:.2%}'.format(count,count/len(text)))
        return count/len(text)
    except:
        print('报错：列表长度不一样')
# contrast(text,d)

def contrast2(list1,list2):
    count = 0
    for i in list1:
        count1 = 0
        for t in list2:
            count1 += contrast([t],[i])
        count += count1
    print('总量：{:.2f} 相似度：{:.2%}'.format(count,count/len(list1)))
list1 = ['长短搭配，', '尽量减少接头，', '以节约钢材。']
list2 = ['长短搭配，','尽量减少接头，']
contrast2(list1,list2)
# contrast(list1,list2)
posted @ 2022-06-20 16:20 记录——去繁就简阅读(1026) 评论(0) 收藏举报
刷新页面返回顶部
记录——去繁就简

python 文本相似度

公告