摘要: 装了一天终于装上了sql server 2008 express sp1版,以下是几个需要注意的地方:必须先安装dot net 3.5 sp1机器名不能和用户名相同需要在administrator账户下安装最好关闭360安全卫士,据说打开的话有些地方没有注册上。 阅读全文
posted @ 2010-03-17 22:32 不死鸟2013 阅读(201) 评论(0) 推荐(0) 编辑
摘要: 在临时解决好robots文件的bug后,发现爬虫在爬行数小时后依然会出错,且该错误原因不明,从定位的出错代码无法看出任何错误相关信息,初步判断该bug应该是与并行化有关。 对于稳定爬虫拟采取以下三个方式:目前的爬虫是基于NCrawler的dotnet3.5版,利用vs2010的并行化支持,对其并行化之后实现的。该方法实现了对不同网站的并行爬行,大大提高了爬虫的效率,可是原版本在并行化后,可能导致出现bug,估计上述无法确定的错误就于此有关。NCrawler还提供了dotnet4.0版,已经是并行化的版本了,但是其本身只对同一个网站并行爬行。此种方法对于爬虫的效率提高能力有限,因对同一网站不间. 阅读全文
posted @ 2010-03-12 16:56 不死鸟2013 阅读(416) 评论(2) 推荐(1) 编辑
摘要: 想把NCrawler的内部信息全部输出,因为已经通过VS2010对其进行了并行化,就意味着同时有数个NCrawler在同时运行。要统计每个爬虫解析获得的url数、下载队列中的域名url数、下载成功及失败的url数。这个时候就想起了静态变量了,用在这个地方太合适不过了。仅仅需要定义四个不同的静态变量用以记录上面关心的几个数字,不管并行都少个爬虫都轻松搞定,而且静态变量合适线程安全的。So good! 阅读全文
posted @ 2010-03-12 16:54 不死鸟2013 阅读(226) 评论(0) 推荐(0) 编辑
摘要: 需要做一个爬虫,最开始看到网上对larbin评价不错,就想着在它的基础上改改,结果后来发现我这个从来没在linux上做过开发的人,这么一下在上手效率是在太低。 想找个基于Windows的C或者C++的开源爬虫结果没发现有合适的。于是不得已只能转投C#阵营了,虽然不是很熟,但毕竟是微软的,比起直接转到java还是简单不少。 千辛万苦找到了NCrawler,发现相对于其他几个比如ArachNode.Net和OpenWebSpiderCS代码量还是要小很多,而且作者一直在开发,感觉不错,于是就决定使用它了。 因为NCrawler一个爬虫只爬一个域名下的网页,我需要爬很多个网站,于是就利用VS201. 阅读全文
posted @ 2010-03-10 11:06 不死鸟2013 阅读(666) 评论(1) 推荐(1) 编辑
摘要: 今天一个朋友看了我之前搜狐博客写的介绍人立方的文章,问起我人立方的事。我就又去人立方看了看,没想到有个我感觉应该让微软很尴尬的发现——人立方关系展示中文版竟然用的flash展示的,见下图:而英文版的就是Silverlight4了:微软这Silverlight到底是怎么定位的??? 难道不是要干掉flash!哈哈 阅读全文
posted @ 2009-12-06 17:06 不死鸟2013 阅读(347) 评论(0) 推荐(0) 编辑
摘要: 去年做的一个东东,发出来大家共赏!FireWallRulesAnalyzer用于对包过滤防火墙规则进行静态检测。目前1.0版在仅限源地址包含any的情况下可以检测出包过滤防火墙规则中的各种异常:遮盖异常、相关性异常、规范化异常和冗余异常,其他地址段包含any可以给出异常出现可能性判断。 阅读全文
posted @ 2009-11-02 22:39 不死鸟2013 阅读(244) 评论(0) 推荐(0) 编辑
摘要: GMap.NET 是一个强大的,自由开源跨平台.NET空间,便于用户利用Google、Yahoo、Virtual Earth、OpenStreetMap 及ArcGIS 等众多在线地图,开发自己的WinForm及WPF程序.项目网址:http://greatmaps.codeplex.com/ 阅读全文
posted @ 2009-10-05 22:08 不死鸟2013 阅读(541) 评论(0) 推荐(0) 编辑
摘要: 通过./larbin执行larbin。默认情况下其配置文件为larbin.conf,可通过参数 -c filename 设置自己的配置文件。可通过 -scratch 参数让larbin重新开始抓取网页。 配置文件larbin.conf文件各项简介:(修改配置文件不需要重新编译larbin) ################################################ Who are you ?# mail of the one who launched larbin (YOUR mail)From larbin2.6.3@unspecified.mail #//用于htt. 阅读全文
posted @ 2009-09-21 18:33 不死鸟2013 阅读(396) 评论(0) 推荐(0) 编辑
摘要: larbin是一个法国人写的网络爬虫,在一台普通pc机上,只要带宽足够,可以一天爬500万网页。下面简单介绍在Ubuntu下的编译运行。 通过新立得或者命令行(sudo apt-get install softname)安装gcc、g++、make、xutils-dev。 注释掉adns下internal.h的569-571行。 下载larbin(http://larbin.sourceforge.net/index-eng.html),解压缩后进入该目录执行 ./configure make 通过./larbin执行。 默认情况下larbin不执行任何输出,可通过修改lar... 阅读全文
posted @ 2009-09-21 11:19 不死鸟2013 阅读(604) 评论(1) 推荐(0) 编辑