摘要: 目录链接:C# 爬虫框架实现 概述 对比通用爬虫结构,我将自己写的爬虫分为五个类实现: Spider主类:负责设置爬虫的各项属性 Scheduler类:负责提供URL到下载类,接收URL并做去重 Downloader类:负责下载页面并提供下载到的HTML内容 PageProgress类:HTML解析 阅读全文
posted @ 2016-06-22 08:50 thought 阅读(1498) 评论(0) 推荐(0) 编辑
摘要: 目录链接:C# 爬虫框架实现 概述 首先需要讲的是,爬虫的原理。其实在我看来,爬虫只是用来解决以下四个问题的工具: 提取哪些网页 提取网页上的哪些内容 存储到哪里(推荐数据库/开源类/Console) 存储结构 进而可以更好的理解通用爬虫结构。结构图看这里吧。我这MS EDGE上传图片特慢。 Web 阅读全文
posted @ 2016-06-22 08:50 thought 阅读(1224) 评论(0) 推荐(0) 编辑
摘要: 目录: 开发目的:写这个程序主要是为了找工作。因为没项目在简历上吃大亏,空口无凭,只能做出点东西证明自己能做事情。其次是为了练习使用MVC做的博客网站提供素材。 需自定义: patternlist匹配项定义 定义结果输出方式:本地sqlserver 的spider数据库,或者终端 种子库 需要: 开 阅读全文
posted @ 2016-06-22 08:49 thought 阅读(2165) 评论(0) 推荐(0) 编辑