摘要:
爬虫的本质: 很多搞爬虫的总爱吹嘘分布式爬虫,仿佛只有分布式才有逼格,不是分布式简直不配叫爬虫,这是一种很肤浅的思想。 分布式只是提高爬虫功能和效率的一个环节而已,它从来不是爬虫的本质东西。爬虫的本质是网络请求和数据处理,如何稳定地访问网页拿到数据,如何精准地提取出高质量的数据才是核心问题。分布式爬 阅读全文
摘要:
爬虫是一个相对来说比较容易上手的技术,也许你画个几分钟就可以将一整个网页上的数据得到,但是如果对于大规模的爬虫就是另外一回事了,这个并不是1*n的问题这么简单的,在这里面还会产生很多别的问题。 这是一个大规模爬虫的流程图: 先检查是否有API: API是网站官方提供的数据接口,如果通过调用API采集 阅读全文