2012年4月16日

摘要: 评估对检索系统的性能: 由于我们这里的检索结果,是主要根据PageRank的排名,以及Lucene对文本的分词和相关性计算的最后得分,进行权值调整后得到的排名结果。 这里对我们检索系统的进行性能评估,这里主要评估的是检索结果排名的质量。 由于对搜索结果排名的评估有很多方法和技巧,这里我们可以采用几个比较经典的评估方法: 1,对rank result 计算P/R值,利用差值法,衡量平均的P/R值。 ... 阅读全文
posted @ 2012-04-16 22:23 liugoodness 阅读(760) 评论(0) 推荐(0) 编辑
摘要: 经过以上步骤,我们得到了各个网页的入度、出度以及Pagerank结果。根据入度排名的页面前20名如下,每行的三列分别表示Url,出度,入度: 1 http://stl.pku.edu.cn/bbs/forumindex.aspx 97 37879 2 http://stl.pku.edu.cn/cn/index.aspx 142 37209 3 h... 阅读全文
posted @ 2012-04-16 19:52 liugoodness 阅读(1367) 评论(2) 推荐(0) 编辑
摘要: 这里,我们得到了网页间的链接关系,可以比较方便的开始进行pagerank的计算了。首先需要预处理得到整个链接关系图。对于一个url的定义如下:struct url{ int id; string urlTxt; int outDegree; vector<int> refList; int inDegree; double score[2]; bool operator > (const url& u) const { return score[scoreIdx]>u.... 阅读全文
posted @ 2012-04-16 17:12 liugoodness 阅读(1016) 评论(6) 推荐(0) 编辑
摘要: [wbia 1.4]中记录了如何得到链接关系的文件,那么从这个文件中可以轻松得到所有的url。评测抓取覆盖率的基本思想也很简单。假设我抓取的网页数为X,网页总数为N,那么覆盖率即为X/N。但是由于无法得到这个N,所以我们需要用取样的方法。从网页集合中随机取样,假设取样总数为n,这n中有x个网页在我们的抓取集合中有,那么,我们的覆盖率即为x/n。取样可以找不同的抓取过程得到的结果。我从同学那里索要了另一份Url链接关系,进行简单的处理后,作为上文说的随机取样结果进行覆盖率的计算。代码如下:#include <iostream>#include <fstream>#incl 阅读全文
posted @ 2012-04-16 16:51 liugoodness 阅读(608) 评论(0) 推荐(0) 编辑

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5

统计

点击右上角即可分享
微信分享提示