2012 年 4月 16 日随笔档案 - liugoodness

2012年4月16日

摘要：评估对检索系统的性能：由于我们这里的检索结果，是主要根据PageRank的排名，以及Lucene对文本的分词和相关性计算的最后得分，进行权值调整后得到的排名结果。这里对我们检索系统的进行性能评估，这里主要评估的是检索结果排名的质量。由于对搜索结果排名的评估有很多方法和技巧，这里我们可以采用几个比较经典的评估方法： 1,对rank result 计算P/R值，利用差值法，衡量平均的P/R值。 ... 阅读全文

posted @ 2012-04-16 22:23 liugoodness 阅读(760) 评论(0) 推荐(0) 编辑

[wbia 1.7] 网页的入度、出度以及Pagerank结果

摘要：经过以上步骤，我们得到了各个网页的入度、出度以及Pagerank结果。根据入度排名的页面前20名如下，每行的三列分别表示Url，出度，入度： 1 http://stl.pku.edu.cn/bbs/forumindex.aspx 97 37879 2 http://stl.pku.edu.cn/cn/index.aspx 142 37209 3 h... 阅读全文

posted @ 2012-04-16 19:52 liugoodness 阅读(1367) 评论(2) 推荐(0) 编辑

[wbia 1.6] 计算抓取结果的Pagerank

摘要：这里，我们得到了网页间的链接关系，可以比较方便的开始进行pagerank的计算了。首先需要预处理得到整个链接关系图。对于一个url的定义如下：struct url{ int id; string urlTxt; int outDegree; vector<int> refList; int inDegree; double score[2]; bool operator > (const url& u) const { return score[scoreIdx]>u.... 阅读全文

posted @ 2012-04-16 17:12 liugoodness 阅读(1016) 评论(6) 推荐(0) 编辑

[wbia 1.5] 根据获得的链接关系，计算抓取的覆盖率

摘要： [wbia 1.4]中记录了如何得到链接关系的文件，那么从这个文件中可以轻松得到所有的url。评测抓取覆盖率的基本思想也很简单。假设我抓取的网页数为X，网页总数为N，那么覆盖率即为X/N。但是由于无法得到这个N，所以我们需要用取样的方法。从网页集合中随机取样，假设取样总数为n，这n中有x个网页在我们的抓取集合中有，那么，我们的覆盖率即为x/n。取样可以找不同的抓取过程得到的结果。我从同学那里索要了另一份Url链接关系，进行简单的处理后，作为上文说的随机取样结果进行覆盖率的计算。代码如下：#include <iostream>#include <fstream>#incl 阅读全文

posted @ 2012-04-16 16:51 liugoodness 阅读(608) 评论(0) 推荐(0) 编辑

Goodness

公告

导航

统计

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论