计算公式
- 其中
是 余弦相似度. - 当
越靠近1,则表示向量A和向量B在向量空间中的夹角越靠近0,意味着它们之间更相似。 - 夹角等于0,则表示这俩向量相等。
例子
-
假如要计算两段文本之间的相似性,总共可以分成以下五个步骤:
- 分词
- 作出语料库
- 计算词频
- 将原句转为词频向量
- 计算余弦相似性
-
A:今天天气真好,明天天气也一样。
-
B:今天天气不差,明天也一样。
- 分词
今天/天气/真好,明天/天气/也/一样。
今天/天气/不差,明天/也/一样。 - 语料库
今天,天气,真好,明天,也,一样,不差 - 计算词频
A:今天1,天气2,真好1,明天1,也1,一样1,不差0
B:今天1,天气1,真好0,明天1,也1,一样1,不差1 - 词频向量
- 余弦相似性计算
套入上述公式中可得
- 最终结果为0.816更靠近1,于是通过余弦相似度计算的结果表示这两个句子之间是颇为相似的。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY