2017 年 5月 15 日随笔档案 - kakaok

2017年5月15日

摘要： scrapy是一个Python爬虫框架。我们自己用requests也能写爬虫（GET某个URL，然后Parse网页的内容），那么，问题来了，scrapy高明在哪些地方呢？下面就来讨论下这个话题，看看业界通用的爬虫是怎么设计的。从[1]可得scrapy架构图。它由5个核心模块组成。 5个模块功能 ( 阅读全文

posted @ 2017-05-15 14:13 kakaok 阅读(512) 评论(0) 推荐(0) 编辑

爬虫服务集群处理nginx返回504

摘要：最近在对爬虫服务做分布式服务的时候总是遇到服务器返回504,搞了两天才发现原来是nginx中有对超时的设置参数，自己都是用默认的，然而客户端的等待时间超过了nginx默认的超时设置修改 keepalive_timeout 120; 默认的是75s,根据自己的需要修改合适的值修改后再运行测试发现一阅读全文

posted @ 2017-05-15 14:00 kakaok 阅读(698) 评论(0) 推荐(0) 编辑

kakaok

公告