余弦相似性计算及python代码实现
A:西米喜欢健身
B:超超不爱健身,喜欢打游戏
step1:分词
A:西米/喜欢/健身
B:超超/不/喜欢/健身,喜欢/打/游戏
step2:列出两个句子的并集
西米/喜欢/健身/超超/不/打/游戏
step3:计算词频向量
A:[1,1,1,0,0,0,0]
B:[0,1,1,1,1,1,1]
step4:计算余弦值
余弦值越大,证明夹角越小,两个向量越相似。
step5:python代码实现
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 | import jieba import jieba.analyse def words2vec(words1 = None , words2 = None ): v1 = [] v2 = [] tag1 = jieba.analyse.extract_tags(words1, withWeight = True ) tag2 = jieba.analyse.extract_tags(words2, withWeight = True ) tag_dict1 = {i[ 0 ]: i[ 1 ] for i in tag1} tag_dict2 = {i[ 0 ]: i[ 1 ] for i in tag2} merged_tag = set (tag_dict1.keys()) | set (tag_dict2.keys()) for i in merged_tag: if i in tag_dict1: v1.append(tag_dict1[i]) else : v1.append( 0 ) if i in tag_dict2: v2.append(tag_dict2[i]) else : v2.append( 0 ) return v1, v2 def cosine_similarity(vector1, vector2): dot_product = 0.0 normA = 0.0 normB = 0.0 for a, b in zip (vector1, vector2): dot_product + = a * b normA + = a * * 2 normB + = b * * 2 if normA = = 0.0 or normB = = 0.0 : return 0 else : return round (dot_product / ((normA * * 0.5 ) * (normB * * 0.5 )) * 100 , 2 ) def cosine(str1, str2): vec1, vec2 = words2vec(str1, str2) return cosine_similarity(vec1, vec2) print (cosine( '阿克苏苹果' , '阿克苏苹果' )) |
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)