随笔分类 - python爬虫
摘要:这看起来似乎和数据直接写进 MongoDB 里面,然后各个程序读取 MongoDB 没什么区别啊?那 Kafka 能解决什么问题? 我们来看看,在这个爬虫架构里面,我们将会用到的 Kafka 的特性: 与其说 Kafka 在这个爬虫架构中像 MongoDB,不如说更像 Redis 的列表。 现在来简
阅读全文
摘要:使用 Scrapy 开发一个爬虫非常简单,这里使用 Scrapy 官网上的例子来说明如何编写一个简单爬虫: 简单来讲,编写和运行一个爬虫只需以下几步: 使用 scrapy startproject 命令创建一个爬虫模板,或自己按模板编写爬虫代码 定义一个爬虫类,并继承 scrapy.Spider,然
阅读全文
摘要:crontab系统自带的调度命令,通过crontab命令,我们可以在固定的间隔时间执行指定的系统指令或 shell script脚本。时间间隔的单位可以是分钟、小时、日、月、周及以上的任意组合。这个命令非常适合周期性的日志分析或数据备份等工作。 crontab服务的重启关闭,开启 $sudo /et
阅读全文