2012年4月5日

摘要: 用heritrix爬得结果之后,开始计算结果页面的pagerank。计算pagerank需要得到url之间的链接关系。根据 这里 的说法可以通过以下三种方法得到。1. 直接分析爬到的网页得到url间的链接关系。2. 分析hertrix的log,得到hertrix爬取的路径,从而得到网页间的链接关系。3. 修改hertrix的源代码,在爬取过程中将链接关系记录下来。 第二种看似是最方便的方法,这里我们先详尽看下hertrix log的格式。一、hertrix log格式(以下部分内容转自 http://blog.sina.com.cn/s/blog_5e8392b10100r563.html). 阅读全文
posted @ 2012-04-05 00:20 liugoodness 阅读(711) 评论(0) 推荐(0) 编辑

2012年4月4日

摘要: [wbia 1]表示web based information architecture作业1的第1部分,搜索到这篇日志的读者可以直接忽略之。我对heritrix的了解较浅,希望此文对第一次用爬虫的程序猿有帮助。如果有什么错误请直接留言指正,不胜感激。 heritrix是个开源爬虫,可以比较自由的配置爬取过程。heritrix可以获取完整的、精确的、站点内容的深度复制。包括获取图像以及其他非文本内容。抓取并存储相关的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫通过Web用户界面启动、监控、调整,允许弹性的定义要获取的URL。一、关于安装和运行 阅读全文
posted @ 2012-04-04 21:01 liugoodness 阅读(4182) 评论(2) 推荐(2) 编辑

2011年12月11日

摘要: 实验室Proxy不是很好用,总得来回设置是否使用。所以写了个C#的程序,大家如果有相同的问题,可以直接用这个代码,输入参数是你要设置的Proxy的地址和端口,形如:"xxx.xxx.xxx.xxx:xxxx", 基本逻辑就是,如果现在正使用proxy,则disable掉,如果没使用,则enable,并设置。代码如下: public static void setProxy(string proxyServer) { Microsoft.Win32.RegistryKey reg = Microsoft.Win32.Registry.Curren... 阅读全文
posted @ 2011-12-11 19:39 liugoodness 阅读(436) 评论(0) 推荐(0) 编辑

2011年11月23日

摘要: 如题 阅读全文
posted @ 2011-11-23 20:03 liugoodness 阅读(288) 评论(0) 推荐(0) 编辑

2011年1月28日

摘要: 这几天遇到一个Bug,这个Bug到现在还没有完美的解决,不过对WPF有了不少了解。为了防止忘记已经了解到的东西,我将查找到的所有知识和信息的网页都保留为打开状态。不能总是开几十个网页,所以临时将有价值的信息汇总,记成此文,稍后将进行整理。发现Google的时候中文找不到,一定记着用英文,英文往往能找到需要的信息。 1. TreeView表示WPF的树状结构,若想让treeView的子项都包含某属性,可以用ItemContainerStyle,可以统一定义TreeViewItem的样式,通过应用HierarchicalDataTemplate。例如可以在其中定义一个DockPanel容器,然后里 阅读全文
posted @ 2011-01-28 18:41 liugoodness 阅读(2201) 评论(1) 推荐(2) 编辑

2010年10月9日

摘要:     Today is actually the first day being a inter in Microsoft.    Yesterday, I haven't do anything, Just walke here and there to search things. The afternoon, Just watch a vi... 阅读全文
posted @ 2010-10-09 19:09 liugoodness 阅读(583) 评论(0) 推荐(0) 编辑

2010年8月13日

摘要: 题目链接:http://acm.pku.edu.cn/JudgeOnline/problem?id=3181题目大意:输入n,和k,问将n用1到k这k个数字进行拆分,有多少种拆分方法。例如:n=5,k=3 则有n=3+2,n=3+1+1,n=2+1+1+1,n=2+2+1,n=1+1+1+1+1这5种拆分方法解题思路:这个题目是个比较明显的动态规划,如果想不到是背包问题,也可以写出状态转移方程如下:用a[i][j]表示考虑到用数j进行拼接时数字i的拼接方法,可以得到状态转移方程如下:a[i][j]=a[i][j-1]+a[i-j][j-1]+a[i-2j][j-1]+a[i-3j][j-1]… 阅读全文
posted @ 2010-08-13 11:15 liugoodness 阅读(1548) 评论(1) 推荐(1) 编辑
摘要: 背包问题 它是在1978年由Merkel和Hellman提出的。它的主要思路是假定某人拥有大量物品,重量各不同。此人通过秘密地选择一部分物品并将它们放 到背包中来加密消息。背包中的物品中重量是公开的,所有可能的物品也是公开的,但背包中的物品是保密的。附加一定的限制条件,给出重量,而要列出可能的物 品,在计算上是不可实现的。背包问题是熟知的不可计算问题,背包体制以其加密,解密速度快而其人注目。但是... 阅读全文
posted @ 2010-08-13 11:03 liugoodness 阅读(2178) 评论(1) 推荐(1) 编辑

2010年5月27日

摘要: 又是本人一份人工智能作业……首先道歉,从Word贴到Livewrter,好多格式没了,也没做代码高亮……大家凑活着看……想做个好的人机对弈的五子棋,可以说需要考虑的问题还是很多的,我们将制作拥有强大AI五子棋的过程分为十四步,让我来步步介绍。 第一步,了解禁手规则 做一个五子棋的程序,自然对五子棋需要有足够的了解,... 阅读全文
posted @ 2010-05-27 21:08 liugoodness 阅读(22741) 评论(20) 推荐(17) 编辑

2010年5月10日

摘要: 阅读全文
posted @ 2010-05-10 18:40 liugoodness 阅读(452) 评论(0) 推荐(0) 编辑

导航