摘要:
目前想到的模型(针对某篇文章的两个最相似文章集合):集合的重合率(两个集合重复的元素) + 重合数据的有序率 。 对于有序率的定义,{1 2 3 4 5}集合是正确有序的,但 {2 3 1 4 5}是错误顺序的,其有序率 : 对于2来说,其余四个数中有三个数的分布是对的(3,4,5分布在2的右边,正确的;但1的位置是错的,应该在2的左边),其有序率为3/4, 对于3来说是3/4 , 对于1来说是2/4 , 对于4来说是4/4 , 对于5来说是4/4 , 所以总的有序率为(3/4+3/4+2/4+1+1)/4 = 0.8 阅读全文