快乐糖果屋 - 博客园

四十三 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mapping映射管理

摘要： 1、映射(mapping)介绍映射：创建索引的时候，可以预先定义字段的类型以及相关属性elasticsearch会根据json源数据的基础类型猜测你想要的字段映射，将输入的数据转换成可搜索的索引项，mapping就是我们自己定义的字段数据类型，同时告诉elasticsearch如何索引数据以及是否阅读全文

posted @ 2018-01-03 11:22 快乐糖果屋阅读(1188) 评论(0) 推荐(0) 编辑

四十二 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的mget和bulk批量操作

摘要：注意：前面讲到的各种操作都是一次http请求操作一条数据，如果想要操作多条数据就会产生多次请求，所以就有了mget和bulk批量操作，mget和bulk批量操作是一次请求可以操作多条数据 1、mget批量操作（查询）批量操作(同一个索引同一个表里的批量查询) 说明：代码：批量操作(同一个索引同阅读全文

posted @ 2018-01-03 11:21 快乐糖果屋阅读(874) 评论(0) 推荐(0) 编辑

四十一 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)基本的索引和文档CRUD操作、增、删、改、查

摘要： elasticsearch(搜索引擎)基本的索引和文档CRUD操作也就是基本的索引和文档、增、删、改、查、操作注意：以下操作都是在kibana里操作的 elasticsearch(搜索引擎)都是基于http方法来操作的 GET 请求指定的页面信息，并且返回实体主体 POST 向指定资源提交数据进阅读全文

posted @ 2018-01-03 11:20 快乐糖果屋阅读(452) 评论(0) 推荐(0) 编辑

四十 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)倒排索引

摘要：倒排索引倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值，而是由属性值来确定记录的位置，因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件，简称倒排文件(invert 阅读全文

posted @ 2018-01-03 11:18 快乐糖果屋阅读(708) 评论(0) 推荐(0) 编辑

三十九 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)的基本概念

摘要： elasticsearch的基本概念 1、集群：一个或者多个节点组织在一起 2、节点：一个节点是集群中的一个服务器，由一个名字来标识，默认是一个随机的漫微角色的名字 3、分片：将索引(相当于数据库)划分为多份的能力，允许水平分割和扩展，对个分片响应请求，提供性能和吞吐量 3、副本：创建分片的一份或者阅读全文

posted @ 2018-01-03 11:17 快乐糖果屋阅读(432) 评论(0) 推荐(0) 编辑

三十八 Python分布式爬虫打造搜索引擎Scrapy精讲—elasticsearch(搜索引擎)介绍以及安装

摘要： elasticsearch(搜索引擎)介绍 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎，基于RESTful web接口。Elasticsearch是用Java开发的，并作为Apache许可条款下的开放源码发布，是第二最流行的企业搜索引擎。阅读全文

posted @ 2018-01-03 11:14 快乐糖果屋阅读(2063) 评论(0) 推荐(0) 编辑

三十七 Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中

摘要： Python分布式爬虫打造搜索引擎Scrapy精讲—将bloomfilter(布隆过滤器)集成到scrapy-redis中，判断URL是否重复布隆过滤器(Bloom Filter)详解基本概念如果想判断一个元素是不是在一个集合里，一般想到的是将所有元素保存起来，然后通过比较确定。链表，树等等数阅读全文

posted @ 2018-01-03 11:13 快乐糖果屋阅读(600) 评论(0) 推荐(0) 编辑

三十六 Python分布式爬虫打造搜索引擎Scrapy精讲—利用开源的scrapy-redis编写分布式爬虫代码

摘要： scrapy-redis是一个可以scrapy结合redis搭建分布式爬虫的开源模块 scrapy-redis的依赖 Python 2.7, 3.4 or 3.5，Python支持版本 Redis >= 2.8，Redis版本 Scrapy >= 1.1，Scrapy版本 redis-py >= 2 阅读全文

posted @ 2018-01-03 11:11 快乐糖果屋阅读(659) 评论(0) 推荐(0) 编辑

三十五 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy分布式爬虫要点

摘要： 1、分布式爬虫原理 2、分布式爬虫优点 3、分布式爬虫需要解决的问题阅读全文

posted @ 2018-01-03 11:10 快乐糖果屋阅读(231) 评论(0) 推荐(0) 编辑

三十四 Python分布式爬虫打造搜索引擎Scrapy精讲—scrapy信号详解

摘要：信号一般使用信号分发器dispatcher.connect()，来设置信号，和信号触发函数，当捕获到信号时执行一个函数 dispatcher.connect()信号分发器，第一个参数信号触发函数，第二个参数是触发信号，以下是各种信号 signals.engine_started当Scrapy引擎启阅读全文

posted @ 2018-01-03 11:09 快乐糖果屋阅读(371) 评论(0) 推荐(0) 编辑