BruceLong

2020年5月9日

摘要：在spider中主动关闭爬虫: self.crawler.engine.close_spider(self, 'cookie失效关闭爬虫') 在pipeline 和downloadermiddlewares 主动关闭爬虫： spider.crawler.engine.close_spider(sp 阅读全文

posted @ 2020-05-09 09:20 BruceLong 阅读(724) 评论(0) 推荐(0) 编辑

2020年4月14日

scrapy优化内存占用

摘要：最近发现公司的scrapy爬虫服务运行起来之后，占用内存持续增大，单个爬虫爬取几十万网页之后，占用内存达到1,2个G，单台服务器运行10个以上的爬虫时，很快就把服务器内存耗尽了。于是着手对爬虫进行空间性能分析及优化首先分析以下可能原因，并依次进行排查：内存泄露资源长时间占用无法释放队列堵塞排阅读全文

posted @ 2020-04-14 15:13 BruceLong 阅读(1640) 评论(0) 推荐(0) 编辑

2020年4月11日

Scrapy爬虫去重效率优化之Bloom Filter的算法的对接

摘要：首先回顾一下Scrapy-Redis的去重机制。Scrapy-Redis将Request的指纹存储到了Redis集合中，每个指纹的长度为40，例如27adcc2e8979cdee0c9cecbbe8bf8ff51edefb61就是一个指纹，它的每一位都是16进制数。我们计算一下用这种方式耗费的存储阅读全文

posted @ 2020-04-11 08:17 BruceLong 阅读(392) 评论(0) 推荐(0) 编辑

2020年4月10日

scrapy_redis对接布隆过滤器(Bloom Filter)

摘要：使用方式： pip3 install scrapy-redis-bloomfilter 使用的方法和Scrapy-Redis基本相似，在这里说明几个关键配置。 # 1. 替换原来的请求调度器的实现类，使用 scrapy-redis 中请求调度器SCHEDULER = "scrapy_redis_bl 阅读全文

posted @ 2020-04-10 18:48 BruceLong 阅读(1076) 评论(0) 推荐(0) 编辑

2020年4月3日

Python-Scrapy shell 带头部headers请求

摘要： scrapy shell -s USER_AGENT="" request_url 就可以完成带头部的请求添加，如请求简书（不带头部请求时403错误） scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:6 阅读全文

posted @ 2020-04-03 16:38 BruceLong 阅读(726) 评论(0) 推荐(0) 编辑

2020年3月24日

postgres数据库入门, python 操作postgres

摘要： linux安装postgres参考: https://blog.csdn.net/luanpeng825485697/article/details/80875860 docker 安装postgres参考:https://blog.csdn.net/luanpeng825485697/articl 阅读全文

posted @ 2020-03-24 23:43 BruceLong 阅读(634) 评论(0) 推荐(0) 编辑

2020年3月20日

在读取文件中出现\ufeff，解决 \ufeff的问题

摘要：语言：python 编程工具：pycharm 硬件环境：win10 64位读取文件过程中发现一个问题：已有记事本文件（非空），转码 UTF-8，复制到pycharm中，在开始位置打印结果会出现 \ufeff, 打印代码如下 f = open('new2.txt', encoding='UTF-8' 阅读全文

posted @ 2020-03-20 10:50 BruceLong 阅读(23745) 评论(0) 推荐(5) 编辑

2020年3月11日

scrapy中主动停止爬虫

摘要： """CloseSpider is an extension that forces spiders to be closed after certain conditions are met. See documentation in docs/topics/extensions.rst """ 阅读全文

posted @ 2020-03-11 12:22 BruceLong 阅读(2816) 评论(0) 推荐(0) 编辑

Scrapy 中Filtered offsite request to 'www.sohu.com':报错的解决方法

摘要： 1.查到的原因为： allow domain中的地址和request的地址不一致。 2.解决方案：将allow domain中的地址修改成和request的地址一致。或者yield scrapy.Request中添加dont_filter = True 阅读全文

posted @ 2020-03-11 11:07 BruceLong 阅读(386) 评论(0) 推荐(0) 编辑

2020年1月10日

win10系统谷歌插件此扩展程序可能已损坏的解决方法

摘要： win10系统想必大家都非常熟悉吧，然而有时候可能会碰到win10系统谷歌插件此扩展程序可能已损坏的问题，比如近日有用户到本站反映说win10系统谷歌插件此扩展程序可能已损坏的问题，该怎么处理win10系统谷歌插件此扩展程序可能已损坏的问题呢？我们按照1.在我的电脑地址栏输入以下地址，找到扩展程序目阅读全文

posted @ 2020-01-10 09:31 BruceLong 阅读(2874) 评论(0) 推荐(0) 编辑

2020年1月9日

如何将已经安装从chrome扩展程序导出备份为.CRX文件？

摘要：以下使用 Windows 的 Google Chrome浏览器进行教学示范，可能在不同版本上界面也会有些出入，但主要操作方式应该不会差太多，如果想把自己电脑上的浏览器外挂汇出，可试着照着本文操作看看。1、首先，从选单中找到「更多工具」，点选「扩展程序」开启管理工具，或者直接于网址列输入 chrome 阅读全文

posted @ 2020-01-09 15:44 BruceLong 阅读(848) 评论(0) 推荐(0) 编辑

2020年1月7日

PAC模式和全局模式的区别

摘要：【PAC模式】：也就是智能分流模式，根据规则去匹配你访问的网站，国外网站走代理，国内网站不走代理，非常智能；优点：节省流量，国内网站依旧走本地网络，速度快，绝大部分国外网站都走代理，速度也快。缺点：少部分国外网站会不经过代理，不能起到加速效果，甚至无法访问（解决方案：自己编辑PAC规则列表，将不走代阅读全文

posted @ 2020-01-07 13:50 BruceLong 阅读(22312) 评论(0) 推荐(0) 编辑

2020年1月2日

细谈八种架构设计模式及其优缺点概述

摘要：作者：风平浪静如马一、什么是架构我想这个问题，十个人回答得有十一个答案，因为另外的那一个是大家妥协的结果。哈哈，我理解，架构就是骨架，如下图所示：人类的身体的支撑是主要由骨架来承担的，然后是其上的肌肉、神经、皮肤。架构对于软件的重要性不亚于骨架对人类身体的重要性。二、. 什么是设计模式这个阅读全文

posted @ 2020-01-02 09:31 BruceLong 阅读(1117) 评论(0) 推荐(1) 编辑

终于有人把 Docker 讲清楚了

摘要：作者：乐章一、简介 1、了解Docker的前生LXC LXC为Linux Container的简写。可以提供轻量级的虚拟化，以便隔离进程和资源，而且不需要提供指令解释机制以及全虚拟化的其他复杂性。相当于C++中的NameSpace。容器有效地将由单个操作系统管理的资源划分到孤立的组中，以更好地在阅读全文

posted @ 2020-01-02 09:29 BruceLong 阅读(1512) 评论(0) 推荐(0) 编辑

2019年12月27日

mongodb的监控与性能优化

摘要：一.mongodb的监控 mongostat是mongdb自带的状态检测工具，在命令行下使用。它会间隔固定时间获取mongodb的当前运行状态，并输出。如果你发现数据库突然变慢或者有其他问题的话，你第一手的操作就考虑采用mongostat来查看mongo的状态。它的输出有以下几列： inserts 阅读全文

posted @ 2019-12-27 09:23 BruceLong 阅读(546) 评论(0) 推荐(0) 编辑

2019年12月24日

mongodb创建超级用户和普通用户(对应数据库的用户)

摘要： 1、创建管理员，下面以用户test1为例： use admin db.createUser({user: "test1", pwd: "test1", roles: [{role: "root", db: "admin"}]}) 2、创建test2db对应的test2用户: use test2db 阅读全文

posted @ 2019-12-24 14:52 BruceLong 阅读(3070) 评论(0) 推荐(0) 编辑

2019年12月18日

文件或目录损坏,小编教你文件或目录损坏且无法读取怎么办

摘要：将u盘插入电脑的时候为什么会出现“文件或目录损坏且无法读取”的提示框呢?遇到这个问题时又该怎么处理呢?别慌，下面小编就来给大家演示一下子解决文件或目录损坏且无法读取这个问题的解决方法。我们在日常的生活当中经常都会遇到各种各样的问题。比如有些时候将u盘插入电脑之后突然跳出来一个“文件或目录损坏且无法阅读全文

posted @ 2019-12-18 16:08 BruceLong 阅读(12834) 评论(0) 推荐(0) 编辑

2019年12月11日

json与bson的区别

摘要： bson是由10gen开发的一个数据格式，目前主要用于mongoDB中，是mongoDB的数据存储格式。bson基于json格式，选择json进行改造的原因主要是json的通用性及json的schemaless的特性。 bson主要会实现以下三点目标： 1.更快的遍历速度对json格式来说，太大的阅读全文

posted @ 2019-12-11 09:45 BruceLong 阅读(747) 评论(0) 推荐(0) 编辑

JS中判断某个字符串是否包含另一个字符串的五种方法

摘要： String对象的方法方法一: indexOf() (推荐) ? 1 2 var str = "123" console.log(str.indexOf("2") != -1); // true indexOf() 方法可返回某个指定的字符串值在字符串中首次出现的位置。如果要检索的字符串值没有出现阅读全文

posted @ 2019-12-11 09:32 BruceLong 阅读(19609) 评论(0) 推荐(0) 编辑

2019年11月27日

python爬虫错误:http.client.HTTPException: got more than 100 headers的解决方法

摘要： python爬虫错误:http.client.HTTPException: got more than 100 headers的解决方法 Traceback (most recent call last): File "C:\Users\Jonariguez\AppData\Roaming\Pyth 阅读全文

posted @ 2019-11-27 10:22 BruceLong 阅读(890) 评论(0) 推荐(0) 编辑

公告