随笔档案「2012年6月」 - 有来有去

用C#实现网络爬虫（二）

摘要：上一篇《用C#实现网络爬虫（一）》我们实现了网络通信的部分，接下来继续讨论爬虫的实现3. 保存页面文件这一部分可简单可复杂，如果只要简单地把HTML代码全部保存下来的话，直接存文件就行了。 1 private void SaveContents(string html, string url) 2 { 3 if (string.IsNullOrEmpty(html)) //判断html字符串是否有效 4 { 5 return; 6 } 7 string path = string.Format("{0}\\{1}.txt", _path, _in... 阅读全文

posted @ 2012-06-17 11:34 有来有去阅读(33033) 评论(54) 推荐(28)

用C#实现网络爬虫（一）

摘要：网络爬虫在信息检索与处理中有很大的作用，是收集网络信息的重要工具。接下来就介绍一下爬虫的简单实现。爬虫的工作流程如下爬虫自指定的URL地址开始下载网络资源，直到该地址和所有子地址的指定资源都下载完毕为止。下面开始逐步分析爬虫的实现。1. 待下载集合与已下载集合为了保存需要下载的URL，同时防止重复下载，我们需要分别用了两个集合来存放将要下载的URL和已经下载的URL。因为在保存URL的同时需要保存与URL相关的一些其他信息，如深度，所以这里我采用了Dictionary来存放这些URL。具体类型是Dictionary<string, int> 其中string是Url字符串，int是阅读全文

posted @ 2012-06-16 22:48 有来有去阅读(86000) 评论(46) 推荐(35)

Windows平台编译Webkit

摘要：最近几天因为项目需要编译了一次Webkit，因为其中颇费周折，所以把自己的编译过程的总结分享一下，希望能给大家帮助。参考网站http://www.webkit.org/1. 编译环境的搭建（1）Visual Studio由于官方指导上面说：暂不支持VS2005以后的版本(newer versions of Visual Studio are currently unsupported)所以为了避免出现不可预料的错误，果断放弃了VS2010，新建了一个Win7虚拟机，装上了VS2005 Team Suite CHS接下来安装VS2005的各种补丁Microsoft Visual Studio 2 阅读全文

posted @ 2012-06-06 00:37 有来有去阅读(11891) 评论(4) 推荐(1)

06 2012 档案

公告