摘要:
以下内容转自 http://www.cnblogs.com/goodness/admin/www.sjchaxun.cn/http/,因为网页上不去,所以将Google cache中的东西拷贝了下来。 当用户点击或搜索引擎向网站服务器发出浏览请求时,服务器将返回Http Header Http头信息状态码,常见几种如下:1、Http/1.1 200 OK 访问正常 表示成功访问,为网站可正常访问时的状态。2、Http/1.1 301 Moved Permanently 301重定向永久重定向 对搜索引擎相对友好的跳转方式,当网站更换域名时可将原域名作301永久重定向到新域名,原域名权重可传递到 阅读全文
2012年4月5日
摘要:
首先lucene 是什么,有什么用呢? 个人理解:lucene就是一个开源的建立索引的开源java包。你可以用来对你想要进行索引的文件进行高效快速的建立索引和索引数据。 先抛开理论的分析,先从一些简单实践例子,来了解lucene的功能。 第一步:当然是在官网下载lucene 最新版本。http://lucene.apache.org/ 第二步:本地eclipse 建立新的project ,... 阅读全文
摘要:
用heritrix爬得结果之后,开始计算结果页面的pagerank。计算pagerank需要得到url之间的链接关系。根据 这里 的说法可以通过以下三种方法得到。1. 直接分析爬到的网页得到url间的链接关系。2. 分析hertrix的log,得到hertrix爬取的路径,从而得到网页间的链接关系。3. 修改hertrix的源代码,在爬取过程中将链接关系记录下来。 第二种看似是最方便的方法,这里我们先详尽看下hertrix log的格式。一、hertrix log格式(以下部分内容转自 http://blog.sina.com.cn/s/blog_5e8392b10100r563.html). 阅读全文