笑得好美

2019年8月12日

摘要：分布式爬虫，可以让很多台电脑都使用同一个的爬虫程序，将爬虫分发得到多台电脑上，这样可以提高爬虫的速度，也就是分布式爬虫。分布式爬虫需要专门的模块scrapy-redis，原生的scrapy框架无法实现分布式爬取，原因在于：（1）scrapy框架中五大核心组件中的调度器只归属于该项目，无法实现被分布阅读全文

posted @ 2019-08-12 23:33 笑得好美阅读(590) 评论(0) 推荐(0) 编辑

scrapy框架之CrawlSpider全站自动爬取

摘要：全站数据爬取的方式 1.通过递归的方式进行深度和广度爬取全站数据，可参考相关博文（全站图片爬取），手动借助scrapy.Request模块发起请求。 2.对于一定规则网站的全站数据爬取，可以使用CrawlSpider实现自动爬取。 CrawlSpider是基于Spider的一个子类。和蜘蛛一样，都是阅读全文

posted @ 2019-08-12 21:16 笑得好美阅读(753) 评论(0) 推荐(0) 编辑

scrapy中间件之下载中间件使用（网易新闻爬取）

摘要： scrapy项目中的middlewarse.py中间件爬虫中间件：目前先不介绍下载中间件（需要在settings.py中开启） 1 def process_request(self, request, spider): 2 #UA伪装 3 # request.headers['User-Agen 阅读全文

posted @ 2019-08-12 19:17 笑得好美阅读(275) 评论(0) 推荐(0) 编辑

2019年8月11日

中国空气质量在线监测分析平台之JS加密、JS混淆处理

摘要：中国空气质量在线监测分析平台数据爬取分析页面分析：确定url、请求方式、请求参数、响应数据 1.访问网站首页：https://www.aqistudy.cn/html/city_detail.html，通过抓包工具分析首页请求并没有获取到页面内的数据信息 2.因此可以确定页面内的数据是动态加载的，阅读全文

posted @ 2019-08-11 23:43 笑得好美阅读(2012) 评论(0) 推荐(0) 编辑

全站深度爬取图片案例

摘要：项目目录爬虫文件setuw.py 1 # -*- coding: utf-8 -*- 2 import time 3 from lxml.html.clean import etree 4 5 import scrapy 6 from meituwangPro.items import Meitu 阅读全文

posted @ 2019-08-11 17:57 笑得好美阅读(568) 评论(0) 推荐(0) 编辑

2019年8月9日

scrapy爬取效率提升配置

摘要：增加并发：默认scrapy开启的并发线程为32个，可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。降低日志级别：在运行scrapy时，会有大量日志信息的输出，为了减少CPU的使用率。可以设置log输出信息为I 阅读全文

posted @ 2019-08-09 23:36 笑得好美阅读(566) 评论(0) 推荐(0) 编辑

scrapy请求发送详解

摘要： scrapy自动发送请求对start_urls列表中存储的起始url进行过请求的发送并没有通过手动实现，但是在parse函数中还是获取到了响应数据，这是因为爬虫文件中的爬虫类继承到了Spider父类中的start_requests（self）这个方法，该方法就可以对start_urls列表中的ur 阅读全文

posted @ 2019-08-09 23:34 笑得好美阅读(1758) 评论(0) 推荐(0) 编辑

scrapy五大核心组件

摘要： scrapy五大核心组件引擎(Scrapy)用来处理整个系统的数据流处理, 触发事务(框架核心) 调度器(Scheduler)用来接受引擎发过来的请求, 压入队列中, 并在引擎再次请求的时候返回. 可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列, 由它来决定下一个要抓取的网址是什么, 阅读全文

posted @ 2019-08-09 23:20 笑得好美阅读(241) 评论(0) 推荐(0) 编辑

scrapy实现数据持久化、数据库连接、图片文件下载及settings.py配置

摘要：数据持久化的两种方式：（1）基于终端指令的持久化存储；（2）基于管道的持久化存储基于终端指令的持久化存储在爬虫文件的parse方法中必须要return可迭代对象类型（通常为列表或字典等）的返回值，该返回值作为基于终端指令持久化指定文件的输出内容。基于管道的持久化存储 (1)编写爬虫文件进行数据阅读全文

posted @ 2019-08-09 23:11 笑得好美阅读(834) 评论(0) 推荐(1) 编辑

scrapy框架简介与安装启动

摘要： Scrapy 是一个专业的、高效的爬虫框架，它使用专业的 Twisted 包（基于事件驱动的网络引擎包）高效地处理网络通信，使用 lxml（专业的 XML 处理包）、cssselect 高效地提取 HTML 页面的有效信息，同时它也提供了有效的线程管理。安装scrapy pip3 install 阅读全文

posted @ 2019-08-09 18:14 笑得好美阅读(703) 评论(0) 推荐(0) 编辑

2019年8月8日

爬虫之图片懒加载技术、selenium工具与PhantomJS无头浏览器

摘要： 2.1 selenium简介 2.2 selenium安装 2.3 selenium简单使用 2.3.1 selenium使用案例 2.3.2 selenium创建浏览器 2.3.3 selenium节点交互 2.3.4 selenium页面源码获取 2.3.5 selenium元素标签定位 2.3 阅读全文

posted @ 2019-08-08 13:28 笑得好美阅读(500) 评论(0) 推荐(0) 编辑

2019年8月7日

移动端数据爬取

摘要：移动端数据爬取 fiddler抓包工具 Fiddler是位于客户端和服务器端的HTTP代理，也是目前最常用的http抓包工具之一。它能够记录客户端和服务器之间的所有 HTTP请求，可以针对特定的HTTP请求，分析请求数据、设置断点、调试web应用、修改请求的数据，甚至可以修改服务器返回的数据，功阅读全文

posted @ 2019-08-07 18:12 笑得好美阅读(1673) 评论(0) 推荐(0) 编辑

2019年8月6日

高性能异步爬虫

摘要： asyncio异步携程模块在python3.4之后新增了asyncio模块，可以帮我们检测IO（只能是网络IO【HTTP连接就是网络IO操作】），实现应用程序级别的切换（异步IO）。注意：asyncio只能发tcp级别的请求，不能发http协议。 - 异步IO：所谓「异步 IO」，就是你发起一个阅读全文

posted @ 2019-08-06 22:34 笑得好美阅读(353) 评论(0) 推荐(0) 编辑

爬虫之同步、异步处理

摘要：爬虫的本质就是模拟client频繁请求server，获取响应数据，对响应数据进行解析处理。常规的串行方式同步阻塞执行，必须等待一个任务处理完后才能之后才能继续下一个，这样效率就非常低。最常用的聚焦爬虫对数据处理的IO操作（阻塞）相对密集，因此需要考虑使用异步方案解决。 1.同步串行：提交任务之后，只阅读全文

posted @ 2019-08-06 20:53 笑得好美阅读(856) 评论(0) 推荐(0) 编辑

2019年8月5日

模拟登录之图片验证码处理

摘要：登录图片验证码处理超级鹰、云打码等API接口获取。案例：古诗文网登录https://so.gushiwen.org/user/login.aspx?from=http://so.gushiwen.org/user/collect.aspx 阅读全文

posted @ 2019-08-05 22:29 笑得好美阅读(357) 评论(0) 推荐(0) 编辑

requests高级用法

摘要：代理proxies 数据采集过程中使用脚本发送请求，请求次数过于频繁，服务器监测到而采用一定的手段禁止此ip的请求，为了解决封ip的问题，我们用代理来处理这个问题。用第三方代理ip进行伪装访问，即使被封也不影响当前ip的使用，构建代理池，封了一个，其他的还可以用，这样就能缓解ip被封无法继续爬取的问阅读全文

posted @ 2019-08-05 21:37 笑得好美阅读(260) 评论(0) 推荐(0) 编辑

爬虫之四种数据解析

摘要：在获取到响应数据后，需要针对性的提取其中有用的部分，这也是采集数据最常见的方式聚焦网络爬虫。数据解析四种方式： 1.正则表达式解析 2.xpath解析 3.bs4解析 4.pyquery解析 1.正则表达式解析（re模块）案例：爬取糗事百科糗图：https://www.qiushibaike. 阅读全文

posted @ 2019-08-05 19:08 笑得好美阅读(898) 评论(0) 推荐(0) 编辑

第二章函数

摘要： 1. 通过代码实现如下转换：二进制转换成十进制：v = “0b1111011” 十进制转换成二进制：v = 18 八进制转换成十进制：v = “011” 十进制转换成八进制：v = 30 十六进制转换成十进制：v = “0x12” 十进制转换成十六进制：v = 87 1 v = "0b111101 阅读全文

posted @ 2019-08-05 18:46 笑得好美阅读(694) 评论(0) 推荐(0) 编辑

re模块

摘要：常用函数： import re re.findall() :（正则，str）匹配str中所有符合正则的字符串并以列表返回 re.search() ：（正则，str）匹配str中第一个符合规则的字符串返回结果集（没有则为None），用.group()取值（没有则报错） re.match() ：（正则，str）开头匹配str中符合正则的字符串... 阅读全文

posted @ 2019-08-05 17:34 笑得好美阅读(181) 评论(0) 推荐(0) 编辑

正则表达式详解

摘要：正则表达式： 1.验证某一字符串是否符合规则 2.匹配某一字符串中的符合规则的字符串正则：字符组： [] ：一个字符组匹配一个字符[0-9][0-1a-zA-Z][ ][_] [^] :非字符组匹配（除字符组之外的其它任意字符）元字符： \d ：匹配任意一个数字... 阅读全文

posted @ 2019-08-05 17:30 笑得好美阅读(231) 评论(0) 推荐(0) 编辑

公告