2016 年 6月 22 日随笔档案 - thought

2016年6月22日

摘要：目录链接：C# 爬虫框架实现概述对比通用爬虫结构，我将自己写的爬虫分为五个类实现： Spider主类：负责设置爬虫的各项属性 Scheduler类：负责提供URL到下载类，接收URL并做去重 Downloader类：负责下载页面并提供下载到的HTML内容 PageProgress类：HTML解析阅读全文

posted @ 2016-06-22 08:50 thought 阅读(1498) 评论(0) 推荐(0) 编辑

C# 爬虫框架实现流程_爬虫结构/原理

摘要：目录链接：C# 爬虫框架实现概述首先需要讲的是，爬虫的原理。其实在我看来，爬虫只是用来解决以下四个问题的工具：提取哪些网页提取网页上的哪些内容存储到哪里（推荐数据库/开源类/Console）存储结构进而可以更好的理解通用爬虫结构。结构图看这里吧。我这MS EDGE上传图片特慢。 Web 阅读全文

posted @ 2016-06-22 08:50 thought 阅读(1224) 评论(0) 推荐(0) 编辑

C# 爬虫框架实现概述

摘要：目录：开发目的：写这个程序主要是为了找工作。因为没项目在简历上吃大亏，空口无凭，只能做出点东西证明自己能做事情。其次是为了练习使用MVC做的博客网站提供素材。需自定义： patternlist匹配项定义定义结果输出方式：本地sqlserver 的spider数据库，或者终端种子库需要：开阅读全文

posted @ 2016-06-22 08:49 thought 阅读(2165) 评论(0) 推荐(0) 编辑

thought

迁移至 github: https://github.com/everywan

公告