上一页 1 2 3 4 5 6 7 ··· 12 下一页
摘要: 在spider中 主动关闭爬虫: self.crawler.engine.close_spider(self, 'cookie失效关闭爬虫') 在pipeline 和downloadermiddlewares 主动关闭爬虫: spider.crawler.engine.close_spider(sp 阅读全文
posted @ 2020-05-09 09:20 BruceLong 阅读(724) 评论(0) 推荐(0) 编辑
摘要: 最近发现公司的scrapy爬虫服务运行起来之后,占用内存持续增大,单个爬虫爬取几十万网页之后,占用内存达到1,2个G,单台服务器运行10个以上的爬虫时,很快就把服务器内存耗尽了。于是着手对爬虫进行空间性能分析及优化首先分析以下可能原因,并依次进行排查: 内存泄露 资源长时间占用无法释放 队列堵塞 排 阅读全文
posted @ 2020-04-14 15:13 BruceLong 阅读(1640) 评论(0) 推荐(0) 编辑
摘要: 首先回顾一下Scrapy-Redis的去重机制。Scrapy-Redis将Request的指纹存储到了Redis集合中,每个指纹的长度为40,例如27adcc2e8979cdee0c9cecbbe8bf8ff51edefb61就是一个指纹,它的每一位都是16进制数。 我们计算一下用这种方式耗费的存储 阅读全文
posted @ 2020-04-11 08:17 BruceLong 阅读(392) 评论(0) 推荐(0) 编辑
摘要: 使用方式: pip3 install scrapy-redis-bloomfilter 使用的方法和Scrapy-Redis基本相似,在这里说明几个关键配置。 # 1. 替换原来的请求调度器的实现类,使用 scrapy-redis 中请求调度器SCHEDULER = "scrapy_redis_bl 阅读全文
posted @ 2020-04-10 18:48 BruceLong 阅读(1076) 评论(0) 推荐(0) 编辑
摘要: scrapy shell -s USER_AGENT="" request_url 就可以完成带头部的请求添加,如请求简书(不带头部请求时403错误) scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:6 阅读全文
posted @ 2020-04-03 16:38 BruceLong 阅读(726) 评论(0) 推荐(0) 编辑
摘要: linux安装postgres参考: https://blog.csdn.net/luanpeng825485697/article/details/80875860 docker 安装postgres参考:https://blog.csdn.net/luanpeng825485697/articl 阅读全文
posted @ 2020-03-24 23:43 BruceLong 阅读(634) 评论(0) 推荐(0) 编辑
摘要: 语言:python 编程工具:pycharm 硬件环境:win10 64位 读取文件过程中发现一个问题:已有记事本文件(非空),转码 UTF-8,复制到pycharm中,在开始位置打印结果会出现 \ufeff, 打印代码如下 f = open('new2.txt', encoding='UTF-8' 阅读全文
posted @ 2020-03-20 10:50 BruceLong 阅读(23745) 评论(0) 推荐(5) 编辑
摘要: """CloseSpider is an extension that forces spiders to be closed after certain conditions are met. See documentation in docs/topics/extensions.rst """ 阅读全文
posted @ 2020-03-11 12:22 BruceLong 阅读(2816) 评论(0) 推荐(0) 编辑
摘要: 1.查到的原因为: allow domain中的地址和request的地址不一致。 2.解决方案: 将allow domain中的地址修改成和request的地址一致。 或者yield scrapy.Request中添加dont_filter = True 阅读全文
posted @ 2020-03-11 11:07 BruceLong 阅读(386) 评论(0) 推荐(0) 编辑
摘要: win10系统想必大家都非常熟悉吧,然而有时候可能会碰到win10系统谷歌插件此扩展程序可能已损坏的问题,比如近日有用户到本站反映说win10系统谷歌插件此扩展程序可能已损坏的问题,该怎么处理win10系统谷歌插件此扩展程序可能已损坏的问题呢?我们按照1.在我的电脑地址栏输入以下地址,找到扩展程序目 阅读全文
posted @ 2020-01-10 09:31 BruceLong 阅读(2874) 评论(0) 推荐(0) 编辑
摘要: 以下使用 Windows 的 Google Chrome浏览器进行教学示范,可能在不同版本上界面也会有些出入,但主要操作方式应该不会差太多,如果想把自己电脑上的浏览器外挂汇出,可试着照着本文操作看看。1、首先,从选单中找到「更多工具」,点选「扩展程序」开启管理工具,或者直接于网址列输入 chrome 阅读全文
posted @ 2020-01-09 15:44 BruceLong 阅读(848) 评论(0) 推荐(0) 编辑
摘要: 【PAC模式】:也就是智能分流模式,根据规则去匹配你访问的网站,国外网站走代理,国内网站不走代理,非常智能;优点:节省流量,国内网站依旧走本地网络,速度快,绝大部分国外网站都走代理,速度也快。缺点:少部分国外网站会不经过代理,不能起到加速效果,甚至无法访问(解决方案:自己编辑PAC规则列表,将不走代 阅读全文
posted @ 2020-01-07 13:50 BruceLong 阅读(22312) 评论(0) 推荐(0) 编辑
摘要: 作者:风平浪静如马 一、什么是架构 我想这个问题,十个人回答得有十一个答案,因为另外的那一个是大家妥协的结果。哈哈,我理解,架构就是骨架,如下图所示: 人类的身体的支撑是主要由骨架来承担的,然后是其上的肌肉、神经、皮肤。架构对于软件的重要性不亚于骨架对人类身体的重要性。 二、. 什么是设计模式 这个 阅读全文
posted @ 2020-01-02 09:31 BruceLong 阅读(1117) 评论(0) 推荐(1) 编辑
摘要: 作者 :乐章 一、简介 1、了解Docker的前生LXC LXC为Linux Container的简写。可以提供轻量级的虚拟化,以便隔离进程和资源,而且不需要提供指令解释机制以及全虚拟化的其他复杂性。相当于C++中的NameSpace。容器有效地将由单个操作系统管理的资源划分到孤立的组中,以更好地在 阅读全文
posted @ 2020-01-02 09:29 BruceLong 阅读(1512) 评论(0) 推荐(0) 编辑
摘要: 一.mongodb的监控 mongostat是mongdb自带的状态检测工具,在命令行下使用。它会间隔固定时间获取mongodb的当前运行状态,并输出。如果你发现数据库突然变慢或者有其他问题的话,你第一手的操作就考虑采用mongostat来查看mongo的状态。 它的输出有以下几列: inserts 阅读全文
posted @ 2019-12-27 09:23 BruceLong 阅读(546) 评论(0) 推荐(0) 编辑
摘要: 1、创建管理员,下面以用户test1为例: use admin db.createUser({user: "test1", pwd: "test1", roles: [{role: "root", db: "admin"}]}) 2、创建test2db对应的test2用户: use test2db 阅读全文
posted @ 2019-12-24 14:52 BruceLong 阅读(3070) 评论(0) 推荐(0) 编辑
摘要: 将u盘插入电脑的时候为什么会出现“文件或目录损坏且无法读取”的提示框呢?遇到这个问题时又该怎么处理呢?别慌,下面小编就来给大家演示一下子解决文件或目录损坏且无法读取这个问题的解决方法。 我们在日常的生活当中经常都会遇到各种各样的问题。比如有些时候将u盘插入电脑之后突然跳出来一个“文件或目录损坏且无法 阅读全文
posted @ 2019-12-18 16:08 BruceLong 阅读(12834) 评论(0) 推荐(0) 编辑
摘要: bson是由10gen开发的一个数据格式,目前主要用于mongoDB中,是mongoDB的数据存储格式。bson基于json格式,选择json进行改造的原因主要是json的通用性及json的schemaless的特性。 bson主要会实现以下三点目标: 1.更快的遍历速度 对json格式来说,太大的 阅读全文
posted @ 2019-12-11 09:45 BruceLong 阅读(747) 评论(0) 推荐(0) 编辑
摘要: String对象的方法 方法一: indexOf() (推荐) ? 1 2 var str = "123" console.log(str.indexOf("2") != -1); // true indexOf() 方法可返回某个指定的字符串值在字符串中首次出现的位置。如果要检索的字符串值没有出现 阅读全文
posted @ 2019-12-11 09:32 BruceLong 阅读(19609) 评论(0) 推荐(0) 编辑
摘要: python爬虫错误:http.client.HTTPException: got more than 100 headers的解决方法 Traceback (most recent call last): File "C:\Users\Jonariguez\AppData\Roaming\Pyth 阅读全文
posted @ 2019-11-27 10:22 BruceLong 阅读(890) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 12 下一页