06 2012 档案

摘要:上一篇《用C#实现网络爬虫(一)》我们实现了网络通信的部分,接下来继续讨论爬虫的实现3. 保存页面文件这一部分可简单可复杂,如果只要简单地把HTML代码全部保存下来的话,直接存文件就行了。 1 private void SaveContents(string html, string url) 2 { 3 if (string.IsNullOrEmpty(html)) //判断html字符串是否有效 4 { 5 return; 6 } 7 string path = string.Format("{0}\\{1}.txt", _path, _in... 阅读全文
posted @ 2012-06-17 11:34 有来 有去 阅读(32999) 评论(54) 推荐(28) 编辑
摘要:网络爬虫在信息检索与处理中有很大的作用,是收集网络信息的重要工具。接下来就介绍一下爬虫的简单实现。爬虫的工作流程如下爬虫自指定的URL地址开始下载网络资源,直到该地址和所有子地址的指定资源都下载完毕为止。下面开始逐步分析爬虫的实现。1. 待下载集合与已下载集合为了保存需要下载的URL,同时防止重复下载,我们需要分别用了两个集合来存放将要下载的URL和已经下载的URL。因为在保存URL的同时需要保存与URL相关的一些其他信息,如深度,所以这里我采用了Dictionary来存放这些URL。具体类型是Dictionary<string, int> 其中string是Url字符串,int是 阅读全文
posted @ 2012-06-16 22:48 有来 有去 阅读(85757) 评论(46) 推荐(35) 编辑
摘要:最近几天因为项目需要编译了一次Webkit,因为其中颇费周折,所以把自己的编译过程的总结分享一下,希望能给大家帮助。参考网站http://www.webkit.org/1. 编译环境的搭建(1)Visual Studio由于官方指导上面说:暂不支持VS2005以后的版本(newer versions of Visual Studio are currently unsupported)所以为了避免出现不可预料的错误,果断放弃了VS2010,新建了一个Win7虚拟机,装上了VS2005 Team Suite CHS接下来安装VS2005的各种补丁Microsoft Visual Studio 2 阅读全文
posted @ 2012-06-06 00:37 有来 有去 阅读(11835) 评论(4) 推荐(1) 编辑

Copyright ©2013 Jiajun. All Rights Reserved.
点击右上角即可分享
微信分享提示