《C# 爬虫破境之道》：第一境爬虫原理 — 第一节：整体思路

　　在构建本章节内容的时候，笔者也在想一个问题，究竟什么样的采集器框架，才能算得上是一个“全能”的呢？就我自己以往项目经历而言，可以归纳以下几个大的分类：

根据通讯协议：HTTP的、HTTPS的、TCP的、UDP的；
根据数据类型：纯文本的、json的、压缩包的、图片的、视频的；
根据更新周期：不定期更新的、定期更新的、增量更新的；
根据数据来源：单一数据源、多重数据源、多重数据源混合；
根据采集点分布：单机的，集群的；
根据反爬虫策略：控制频率的，使用代理的，使用特定UA的；
根据配置：可配置的，不可配置的；

　　以上的分类，也有可能不够全面，不过应该可以涵盖主流数据采集的分类了。

　　为了方便阐述一个爬虫的工作原理，我们从上面找到一条最简单路径，来进行阐述（偷奸耍滑？非也，大道化简，万变不离其宗：）

　　ＯＫ，一个小目标，单机、单一数据源、定期更新、纯文本、HTTP的爬虫，来一只。

在第一境的后面各节中，我们就来逐步实现这个小目标，同时，也来探究一下其中的原理。只有掌握了这些，才能通过继续扩展，衍生出强大的爬虫：）

喜欢本系列丛书的朋友,可以点击链接加入QQ交流群(994761602)【C# 破境之道】
方便各位在有疑问的时候可以及时给我个反馈。同时，也算是给各位志同道合的朋友提供一个交流的平台。
需要源码的童鞋，也可以在群文件中获取最新源代码。

posted @ 2019-12-24 11:19 MikeCheers 阅读(523) 评论(0) 收藏举报

刷新页面返回顶部