摘要: SCHEDULER = 'scrapy_redis.scheduler.Scheduler' DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter' REDIS_HOST = 'xxxx' REDIS_PORT = xxxx REDIS_ 阅读全文
posted @ 2020-02-28 20:36 liuxianglong 阅读(288) 评论(0) 推荐(0) 编辑
摘要: 我们可以使用from +size来获取所有数据,但是,如果数据量大的时候,这样的操作开销很大,这时候可以使用scroll操作 1.第一步发起一个scroll 的post请求,带上参数scroll=1m (1m的意思是1分钟的意思) POST /twitter/_search?scroll=1m { 阅读全文
posted @ 2020-02-28 15:16 liuxianglong 阅读(1500) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-02-25 18:12 liuxianglong 阅读(1949) 评论(0) 推荐(0) 编辑
摘要: 人生不如意之事十之八九,合并分支往往也不是一帆风顺的。 准备新的feature1分支,继续我们的新分支开发: $ git switch -c feature1 Switched to a new branch 'feature1' 修改readme.txt最后一行,改为: Creating a ne 阅读全文
posted @ 2020-02-24 23:23 liuxianglong 阅读(3125) 评论(0) 推荐(0) 编辑
摘要: 我在scrapy settings.py中填的REDIS_URL是这样的, 密码中含有特俗符合, 导致连接不上redis服务器 REDIS_URL = 'redis://:^*,dfdas.*,@192.168.10.34:6379/1' 网上有人说,先encode密码, 连接的时候再decode, 阅读全文
posted @ 2020-02-22 23:14 liuxianglong 阅读(331) 评论(0) 推荐(0) 编辑
摘要: 1.先执行 locale -a | grep zh,看Linux是否支持中文显示的字符集(以zh开头),没有就安装中文支持包 2. 设置终端显示字符集,当然有的时候字符集名称为utf8,那就写export LANG="zh_CN.utf8" ,一定要带上双引号,有时候设为gbk才能显示正常 ## 临 阅读全文
posted @ 2020-02-20 10:42 liuxianglong 阅读(834) 评论(0) 推荐(0) 编辑
摘要: 上一次我给大家讲解了装饰器,它能让函数在不做更多变动的情况下增加某些额外的功能 而今天我们来了解一下python中几个内置的装饰器 通常我们写代码的时候,都不希望外部代码能够轻易地修改内部属性的参数 因为要在外部改变参数的时候,我们必须想办法通过内部函数去检验参数的正确性,以确保设置正确 但是我们不 阅读全文
posted @ 2020-02-15 22:52 liuxianglong 阅读(613) 评论(0) 推荐(0) 编辑
摘要: Configuration file Scrapyd searches for configuration files in the following locations, and parses them in order with the latest one taking more prior 阅读全文
posted @ 2020-01-27 15:50 liuxianglong 阅读(1344) 评论(0) 推荐(0) 编辑
摘要: 官方方法: from w3lib.http import basic_auth_header class CustomProxyMiddleware(object): def process_request(self, request, spider): request.meta['proxy'] 阅读全文
posted @ 2020-01-17 18:09 liuxianglong 阅读(437) 评论(0) 推荐(0) 编辑
摘要: 因为asyncio内部用到了select,而select就是系统打开文件数是有限度的,这个其实是操作系统的限制,linux打开文件的最大数默认是1024,windows默认是509,超过了这个值,程序就开始报错, https://www.cnblogs.com/shenh/p/9090586.htm 阅读全文
posted @ 2020-01-16 14:25 liuxianglong 阅读(1710) 评论(0) 推荐(0) 编辑