摘要: 分布式爬虫 概念:使用多台机器组成一个分布式的机群,在机群中运行同一组程序,进行联合数据的爬取。 原生的scrapy是不可以实现分布式: 原生的scrapy中的调度器不可以被共享 原生的scrapy的管道不可以被共享 实现分布式就必须使用scrapy redis(模块) 可以给原生的scrapy提供 阅读全文
posted @ 2019-07-07 22:25 z1115230598 阅读(182) 评论(0) 推荐(0) 编辑
摘要: 环境安装 下载安装selenuim:pip install selenuim 下载浏览器驱动程序: http://chromedriver.storage.googleapis.com/index.html 查看驱动和浏览器版本的映射关系: http://blog.csdn.net/huilan_s 阅读全文
posted @ 2019-06-06 22:44 z1115230598 阅读(192) 评论(0) 推荐(0) 编辑
摘要: scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、各个功能的用法即可 环境安装 linu 阅读全文
posted @ 2019-06-06 22:41 z1115230598 阅读(131) 评论(0) 推荐(0) 编辑
摘要: 异步协程 event_loop:事件循环,相当于一个无限循环,我们可以把一些函数注册到这个事件循环上,当满足某些条件的时候,函数就会被循环执行。程序是按照设定的顺序从头执行到尾,运行的次数也是完全按照设定。当在编写异步程序时,必然其中有部分程序的运行耗时是比较久的,需要先让出当前程序的控制权,让其在 阅读全文
posted @ 2019-06-06 16:18 z1115230598 阅读(188) 评论(0) 推荐(0) 编辑
摘要: 正则解析 单字符: . : 除换行以外所有字符 [] :[aoe] [a-w] 匹配集合中任意一个字符 \d :数字 [0-9] \D : 非数字 \w :数字、字母、下划线、中文 \W : 非\w \s :所有的空白字符包,括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。 \S : 阅读全文
posted @ 2019-06-04 21:46 z1115230598 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 什么是requests模块 requests模块是python中原生的基于网络请求的模块,其主要作用是用来模拟浏览器发起请求。功能强大,用法简洁高效。在爬虫领域中占据着半壁江山的地位。 优点:自动处理url编码 自动处理post请求参数 简化cookie和代理操作 如何使用requests模块 安装 阅读全文
posted @ 2019-06-04 21:41 z1115230598 阅读(227) 评论(0) 推荐(0) 编辑
摘要: django相关 阅读全文
posted @ 2019-06-04 21:03 z1115230598 阅读(84) 评论(0) 推荐(0) 编辑
摘要: 什么是爬虫 爬虫就是通过编写程序模拟浏览器上网,然后让其去互联网上抓取数据的过程。 哪些语言可以实现爬虫 1.php:可以实现爬虫.但是php在实现爬虫中支持多线程和多进程方面做的不好。 2.java:可以实现爬虫。java可以非常好的处理和实现爬虫,是唯一可以与python并驾齐驱且是python 阅读全文
posted @ 2019-06-04 20:52 z1115230598 阅读(157) 评论(0) 推荐(0) 编辑
摘要: 多对一 create table press( id int primary key auto_increment, name varchar(20) ); create table book( id int primary key auto_increment, name varchar(20), 阅读全文
posted @ 2018-12-21 20:36 z1115230598 阅读(302) 评论(0) 推荐(0) 编辑
摘要: 数据库 优势 1.程序的稳定性:这样任意一台服务所在的机器崩溃了都不会影响数据和另外的服务 2 数据的一致性:所有的数据都存储自爱一起,所有的程序操作的数据都是统一的,就不会出现数据不一样的现象 3.并发:数据库可以良好的支持并发,所有的程序操作数据库都是通过网络.而数据本身支持并发的网络操作,不需 阅读全文
posted @ 2018-12-21 18:03 z1115230598 阅读(154) 评论(0) 推荐(0) 编辑