针对有序集合相似性的评估方法

背景：上篇文章《文本相似搜索算法以及改进》中对于vsm文本计算相似度的时候，每篇文章在做成vsm文本向量的时候，会有个问题：一篇文章中包含的词是很多的（有的在1000左右），不可能包含全部的词，这样在计算以及存储上都会有些问题，太大，这样只能精简一些词来代表这边文章，现在的方法是将所有的词维度值从大往小排列，取前N个来代表这个向量，这样带来的问题就是当你减少这个N的时候，怎么确保对整体的影响较小。

所以我们定义了两个指标来评估这样带来的影响，主要是集合的重合率和集合有序率两个指标来衡量，比较较少词前和减少后最相似的TopN向量的不同。

集合的重合率定义：

重合率=两个集合共有的元素2/两个集合的所有元素之和。

集合有序率的定义：

{1 2 3 4 5}集合是正确有序的，但 {2 3 1 4 5}是错误顺序的，其有序率：对于2来说，其余四个数中有三个数的分布是对的（3,4,5分布在2的右边，真确的；但1的位置是错的，应该在2的左边），其有序率为3/4，对于3来说是3/4 ，对于1来说是2/4 ，对于4来说是4/4 ，对于5来说是4/4 ，所以总的有序率为（3/4+3/4+2/4+1+1）/4 = 0.8 对于两个不同长度限制条件下求的最相似的30个向量的集合来说，有序率为限制数小的集合相对与限制数大的集合的有序率。

posted @ 2014-05-20 10:16 xiao晓阅读(753) 评论(0) 收藏举报

刷新页面返回顶部

xiao晓

serendipity

针对有序集合相似性的评估方法

公告