2012年8月2日

摘要: // 这个算法在开源的SDBM中使用,似乎对很多不同类型的数据都能得到不错的分布。unsigned int SDBMHash(const char *str){ unsigned int hash = 0 ; while (*str) { // equivalent to: hash = 65599*hash + (*str++); hash = (*str++) + (hash << 6 ) + (hash << 16 ) - hash; } return (hash & 0x7FFFFFFF );}// 从Robert ... 阅读全文
posted @ 2012-08-02 09:34 liugoodness 阅读(1250) 评论(0) 推荐(0) 编辑

2012年5月16日

摘要: 这几天需要对实验室集群中机器的数据进行处理,借此机会熟悉下python这个语言。实验室集群中机器各异,python版本也很多样化,总共有四个版本。写的程序调成了三种样子,才得以在各个机器上跑完。记录下常用的代码。一个在2.7中可以运行的代码:import globimport osimport shutilimport reoutlinkPath="/POOL_Temp_space/xzm/run/"putPosition="/POOL_Temp_space/lyn/infoMall/allOutlinksFile/"def fun(path): #pa 阅读全文
posted @ 2012-05-16 13:45 liugoodness 阅读(377) 评论(0) 推荐(0) 编辑
摘要: 研究了下c++中map的内存占用情况。很多人说map中的erase以及clear不能释放内存,这几天实验了下,这个说法是不确切的,较为准确的说法应该是,map中的erase以及clear,不能,“马上”释放内存。map有自己的机制回收内存,用erase以及clear之后,如果没有特殊需求,可以认为那部分内存已经释放了。map不会马上释放删掉内容的内存,而是会对内存进行“预留”,如果确实很长时间用不到预留的内存,才会释放。 做了这样几个实验,P1不停的填充map,监控程序内存占用情况。自然内存是不断上升的。P2则是向map中填充200M数据后,一个一个进行erase到0个,然后再重新填充。可以. 阅读全文
posted @ 2012-05-16 13:34 liugoodness 阅读(9200) 评论(1) 推荐(0) 编辑

2012年4月16日

摘要: 评估对检索系统的性能: 由于我们这里的检索结果,是主要根据PageRank的排名,以及Lucene对文本的分词和相关性计算的最后得分,进行权值调整后得到的排名结果。 这里对我们检索系统的进行性能评估,这里主要评估的是检索结果排名的质量。 由于对搜索结果排名的评估有很多方法和技巧,这里我们可以采用几个比较经典的评估方法: 1,对rank result 计算P/R值,利用差值法,衡量平均的P/R值。 ... 阅读全文
posted @ 2012-04-16 22:23 liugoodness 阅读(745) 评论(0) 推荐(0) 编辑
摘要: 经过以上步骤,我们得到了各个网页的入度、出度以及Pagerank结果。根据入度排名的页面前20名如下,每行的三列分别表示Url,出度,入度: 1 http://stl.pku.edu.cn/bbs/forumindex.aspx 97 37879 2 http://stl.pku.edu.cn/cn/index.aspx 142 37209 3 h... 阅读全文
posted @ 2012-04-16 19:52 liugoodness 阅读(1355) 评论(2) 推荐(0) 编辑
摘要: 这里,我们得到了网页间的链接关系,可以比较方便的开始进行pagerank的计算了。首先需要预处理得到整个链接关系图。对于一个url的定义如下:struct url{ int id; string urlTxt; int outDegree; vector<int> refList; int inDegree; double score[2]; bool operator > (const url& u) const { return score[scoreIdx]>u.... 阅读全文
posted @ 2012-04-16 17:12 liugoodness 阅读(1012) 评论(6) 推荐(0) 编辑
摘要: [wbia 1.4]中记录了如何得到链接关系的文件,那么从这个文件中可以轻松得到所有的url。评测抓取覆盖率的基本思想也很简单。假设我抓取的网页数为X,网页总数为N,那么覆盖率即为X/N。但是由于无法得到这个N,所以我们需要用取样的方法。从网页集合中随机取样,假设取样总数为n,这n中有x个网页在我们的抓取集合中有,那么,我们的覆盖率即为x/n。取样可以找不同的抓取过程得到的结果。我从同学那里索要了另一份Url链接关系,进行简单的处理后,作为上文说的随机取样结果进行覆盖率的计算。代码如下:#include <iostream>#include <fstream>#incl 阅读全文
posted @ 2012-04-16 16:51 liugoodness 阅读(608) 评论(0) 推荐(0) 编辑

2012年4月14日

摘要: 1.2中提到可以通过修改Heritrix代码得到网页间的链接关系,这里说下如何进行修改。既然要修改Heritrix的代码,首先要对Heritrix的代码进行配置。一、Hertrix代码配置 以下为Heritrix代码配置方法,部分内容转自http://www.ibm.com/developerworks/cn/opensource/os-cn-heritrix/?S_TACT=105AGX52&S_CMP=reg-ccid 首先在 Eclipse 中新建 Java 工程 MyHeritrix。然后利用下载的源代码包根据以下步骤来配置这个工程。1. 导入类库Heritrix 所用到的工具 阅读全文
posted @ 2012-04-14 22:19 liugoodness 阅读(819) 评论(2) 推荐(2) 编辑

2012年4月5日

摘要: 以下内容转自 http://www.cnblogs.com/goodness/admin/www.sjchaxun.cn/http/,因为网页上不去,所以将Google cache中的东西拷贝了下来。 当用户点击或搜索引擎向网站服务器发出浏览请求时,服务器将返回Http Header Http头信息状态码,常见几种如下:1、Http/1.1 200 OK 访问正常 表示成功访问,为网站可正常访问时的状态。2、Http/1.1 301 Moved Permanently 301重定向永久重定向 对搜索引擎相对友好的跳转方式,当网站更换域名时可将原域名作301永久重定向到新域名,原域名权重可传递到 阅读全文
posted @ 2012-04-05 20:45 liugoodness 阅读(629) 评论(0) 推荐(0) 编辑
摘要: 首先lucene 是什么,有什么用呢? 个人理解:lucene就是一个开源的建立索引的开源java包。你可以用来对你想要进行索引的文件进行高效快速的建立索引和索引数据。 先抛开理论的分析,先从一些简单实践例子,来了解lucene的功能。 第一步:当然是在官网下载lucene 最新版本。http://lucene.apache.org/ 第二步:本地eclipse 建立新的project ,... 阅读全文
posted @ 2012-04-05 14:02 liugoodness 阅读(1262) 评论(0) 推荐(1) 编辑

导航