会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
我是一块砖
Keep it very simple
导航
博客园
首页
新随笔
联系
订阅
管理
公告
2010年12月23日
文本的相似度
摘要: 中文的文本相似度的计算是基于分词来的余弦定理: 提取两段文本中所有词(事先需用空格分割好) 计算每个词在两段文本中分别出现的次数(用BSD tree.h里的RBTREE保存) 用词频做为A、B的分量 使用余弦公式计算AB夹角的余弦值jaccard: 大体差不多代码如下,分词用的是mmseg[代码]
阅读全文
posted @ 2010-12-23 15:01 twelfthing
阅读(979)
评论(0)
推荐(1)
编辑