MC_Hotdog - 博客园

2019年8月31日

摘要：简单的使用内置的代理中间件源码分析总结：如果要简单的使用只需在请求刚开始的时候定义os.environ进程环境变量如果要自定义下载代理中间件需要定义这些方法自定义下载代理中间件方式一自定义下载代理中间件方式二，源码看了很轻松自己定义配置文件中好奇看下Scrapy的配置文件阅读全文

posted @ 2019-08-31 21:36 MC_Hotdog 阅读(1368) 评论(0) 推荐(0)

2019年8月30日

Scrapy之dupefilters(去重)以及源码分析/depth

摘要：避免重复访问 scrapy默认使用 scrapy.dupefilter.RFPDupeFilter 进行去重，相关配置有：自定义url去重操作 Chouti.py pipelines.py 1 # -*- coding: utf-8 -*- 2 3 # Define your item pipel 阅读全文

posted @ 2019-08-30 21:22 MC_Hotdog 阅读(2230) 评论(0) 推荐(0)

初识Scrapy

摘要： Scrapy常规命令与文件目录解读简单实例：用scrapy爬取抽屉热榜这篇博文也写的不错学习学习https://www.cnblogs.com/jyh-py-blog/p/9986996.html 阅读全文

posted @ 2019-08-30 21:21 MC_Hotdog 阅读(188) 评论(0) 推荐(0)

Scrapy之持久化pipelines/items

摘要：基于上篇博文存在的问题 https://www.cnblogs.com/Alexephor/p/11432195.html -无法完成爬虫刚开始打开连接爬虫关闭时：关闭连接 -分工不明确本篇博文解决以上两问题上篇博文不足之处主要体现在爬虫部分parse中在爬数据的过程操作了实时打开关闭文件处阅读全文

posted @ 2019-08-30 21:21 MC_Hotdog 阅读(203) 评论(0) 推荐(0)

BeautifulSoup库解析

该文被密码保护。阅读全文

posted @ 2019-08-30 21:20 MC_Hotdog 阅读(4) 评论(0) 推荐(0)

2019年8月29日

requests库解析

摘要：库的概述 Requests 是使用 Apache2 Licensed 许可证的基于Python开发的HTTP 库，其在Python内置模块的基础上进行了高度的封装，从而使得Pythoner进行网络请求时，变得美好了许多，使用Requests可以轻而易举的完成浏览器可有的任何操作。方法参数 1 阅读全文

posted @ 2019-08-29 20:52 MC_Hotdog 阅读(1715) 评论(0) 推荐(0)

2019年8月27日

Elasticsearch之索引模板

摘要：解决的问题当索引类型和配置信息都一样，就可以使用索引模板来处理，不然我们就会手动创建索引。创建索引模板查看索引模板索引模板的使用添加数据并且查询模板是否使用上查询结果模板使用上了多模板匹配删除模板阅读全文

posted @ 2019-08-27 20:16 MC_Hotdog 阅读(3989) 评论(1) 推荐(0)

Elasticsearch之别名

摘要：别名解决的问题在运行的集群中可以从一个索引切换到另一个索引可以给多个索引进行分组可以与路由搭配使用别名的相关操作准备数据阶段创建别名给l1索引创建别名a1(_aliases actions add) 查看别名查看结果删除别名(actions remove) 重命名别名(淘汰旧的索引阅读全文

posted @ 2019-08-27 20:15 MC_Hotdog 阅读(6457) 评论(0) 推荐(0)

2019年8月26日

Elasticsearch之路由（routing）

摘要：路由主要解决的是文档应该存储在哪个分片中实际过程是根据公式计算出进行分配自定义路由这两篇文档都分配在一个分片上了通过路由查询文档通过路由值查找删除文档就要带上路由值不然会找不到查询多个路由查找处理忘记路由（导致文档在多个分片建立索引）查询文档2可以根据普通查询，这样两篇文档阅读全文

posted @ 2019-08-26 23:12 MC_Hotdog 阅读(593) 评论(0) 推荐(0)

Elasticsearch之recovery

摘要：定义 recovery是一个索引的分片分配到另外一个节点的过程，一般发生在快照恢复，索引复制分片的变更，节点故障或者重启节点时候发生。recovery的过程消耗额外的资源cpu 内存节点点的网络带宽等等。减少集群full restart造成的数据来回拷贝 1.在集群启动的过程中，一旦有了多少启动阅读全文

posted @ 2019-08-26 23:11 MC_Hotdog 阅读(433) 评论(0) 推荐(0)