摘要: scrapy是一个Python爬虫框架。我们自己用requests也能写爬虫(GET某个URL,然后Parse网页的内容),那么,问题来了,scrapy高明在哪些地方呢?下面就来讨论下这个话题,看看业界通用的爬虫是怎么设计的。 从[1]可得scrapy架构图。它由5个核心模块组成。 5个模块功能 ( 阅读全文
posted @ 2017-05-15 14:13 kakaok 阅读(512) 评论(0) 推荐(0) 编辑
摘要: 最近在对爬虫服务做分布式服务的时候总是遇到服务器返回504,搞了两天才发现原来是nginx中有对超时的设置参数,自己都是用默认的,然而客户端的等待时间超过了nginx默认的超时设置 修改 keepalive_timeout 120; 默认的是75s,根据自己的需要修改合适的值 修改后再运行测试发现一 阅读全文
posted @ 2017-05-15 14:00 kakaok 阅读(698) 评论(0) 推荐(0) 编辑