会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
dy9776
博客园
首页
新随笔
联系
订阅
管理
2018年5月19日
文本挖掘之 文本相似度判定
摘要: 转载: 简介 针对文本相似判定,本文提供余弦相似度和SimHash两种算法,并根据实际项目遇到的一些问题,给出相应的解决方法。经过实际测试表明:余弦相似度算法适合于短文本,而SimHash算法适合于长文本,并且能应用于大数据环境中。 余弦相似度 余弦定理: 图-1 余弦定理图示 性质: 余弦值的范围
阅读全文
posted @ 2018-05-19 11:46 dy9776
阅读(862)
评论(0)
推荐(0)
编辑
公告