摘要:评估对检索系统的性能: 由于我们这里的检索结果,是主要根据PageRank的排名,以及Lucene对文本的分词和相关性计算的最后得分,进行权值调整后得到的排名结果。 这里对我们检索系统的进行性能评估,这里主要评估的是检索结果排名的质量。 由于对搜索结果排名的评估有很多方法和技巧,这里我们可以采用几个比较经典的评估方法: 1,对rank result 计算P/R值,利用差值法,衡量平均的P/R值。 ...
阅读全文
摘要:经过以上步骤,我们得到了各个网页的入度、出度以及Pagerank结果。根据入度排名的页面前20名如下,每行的三列分别表示Url,出度,入度: 1 http://stl.pku.edu.cn/bbs/forumindex.aspx 97 37879 2 http://stl.pku.edu.cn/cn/index.aspx 142 37209 3 h...
阅读全文
摘要:这里,我们得到了网页间的链接关系,可以比较方便的开始进行pagerank的计算了。首先需要预处理得到整个链接关系图。对于一个url的定义如下:struct url{ int id; string urlTxt; int outDegree; vector<int> refList; int inDegree; double score[2]; bool operator > (const url& u) const { return score[scoreIdx]>u....
阅读全文
摘要:[wbia 1.4]中记录了如何得到链接关系的文件,那么从这个文件中可以轻松得到所有的url。评测抓取覆盖率的基本思想也很简单。假设我抓取的网页数为X,网页总数为N,那么覆盖率即为X/N。但是由于无法得到这个N,所以我们需要用取样的方法。从网页集合中随机取样,假设取样总数为n,这n中有x个网页在我们的抓取集合中有,那么,我们的覆盖率即为x/n。取样可以找不同的抓取过程得到的结果。我从同学那里索要了另一份Url链接关系,进行简单的处理后,作为上文说的随机取样结果进行覆盖率的计算。代码如下:#include <iostream>#include <fstream>#incl
阅读全文
摘要:1.2中提到可以通过修改Heritrix代码得到网页间的链接关系,这里说下如何进行修改。既然要修改Heritrix的代码,首先要对Heritrix的代码进行配置。一、Hertrix代码配置 以下为Heritrix代码配置方法,部分内容转自http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/?S_TACT=105AGX52&S_CMP=reg-ccid 首先在 Eclipse 中新建 Java 工程 MyHeritrix。然后利用下载的源代码包根据以下步骤来配置这个工程。1. 导入类库Heritrix 所用到的工具
阅读全文
摘要:以下内容转自 http://www.cnblogs.com/goodness/admin/www.sjchaxun.cn/http/,因为网页上不去,所以将Google cache中的东西拷贝了下来。 当用户点击或搜索引擎向网站服务器发出浏览请求时,服务器将返回Http Header Http头信息状态码,常见几种如下:1、Http/1.1 200 OK 访问正常 表示成功访问,为网站可正常访问时的状态。2、Http/1.1 301 Moved Permanently 301重定向永久重定向 对搜索引擎相对友好的跳转方式,当网站更换域名时可将原域名作301永久重定向到新域名,原域名权重可传递到
阅读全文
摘要:首先lucene 是什么,有什么用呢? 个人理解:lucene就是一个开源的建立索引的开源java包。你可以用来对你想要进行索引的文件进行高效快速的建立索引和索引数据。 先抛开理论的分析,先从一些简单实践例子,来了解lucene的功能。 第一步:当然是在官网下载lucene 最新版本。http://lucene.apache.org/ 第二步:本地eclipse 建立新的project ,...
阅读全文
摘要:用heritrix爬得结果之后,开始计算结果页面的pagerank。计算pagerank需要得到url之间的链接关系。根据 这里 的说法可以通过以下三种方法得到。1. 直接分析爬到的网页得到url间的链接关系。2. 分析hertrix的log,得到hertrix爬取的路径,从而得到网页间的链接关系。3. 修改hertrix的源代码,在爬取过程中将链接关系记录下来。 第二种看似是最方便的方法,这里我们先详尽看下hertrix log的格式。一、hertrix log格式(以下部分内容转自 http://blog.sina.com.cn/s/blog_5e8392b10100r563.html).
阅读全文
摘要:[wbia 1]表示web based information architecture作业1的第1部分,搜索到这篇日志的读者可以直接忽略之。我对heritrix的了解较浅,希望此文对第一次用爬虫的程序猿有帮助。如果有什么错误请直接留言指正,不胜感激。 heritrix是个开源爬虫,可以比较自由的配置爬取过程。heritrix可以获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。一、关于安装和运行
阅读全文