摘要:了解CrawlSpider CrawlSpider是Spider的子类 它的创建方式是: scrapy genspider -t crawl spiderName www.xxx.com 创建爬虫文件成功后,我们可以看到它和Spider最大的不同就是多了一个Rule from scrapy.link
阅读全文
摘要:下载中间件 在每一个scrapy工程中都有一个名为 middlewares.py 的文件,这个就是中间件文件 其中下载中间件的类为 XxxDownloaderMiddleware 其中有这么几个方法 def process_request(self, request, spider): return
阅读全文
摘要:scrapy的持久化存储有两种:基于终端指令的和基于管道的 基于终端指令 限制: 只能将parse方法的返回值存储在本地的文本文件中 文件格式只能是,json、jsonlines、jl、csv、xml、marshal、pickle scrapy crawl 爬虫文件 -o 存储路径 基于管道 编码流
阅读全文
摘要:一般的数据解析 首先创建工程 cd study_scrapy/ # 进入要创建工程的目录 scrapy startproject study_scrapy02 # 创建工程 cd study_scrapy02/ # 进入工程 scrapy genspider gushi www.xxx.com #
阅读全文
摘要:什么是scrapy框架 介绍 Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。 Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。 它也提供
阅读全文
摘要:模拟登录qq空间:有iframe、无验证码 """ selenium模拟登录QQ空间:有iframe、无验证码 """ from selenium import webdriver from selenium.webdriver import ActionChains from selenium.w
阅读全文
摘要:更多的selenium自动化操作 我们之前尝试了如何使用selenium操作浏览器,但是并没有更多的去使用。 其实我们可以使用selenium去做更多的事情,如搜索、点击按钮、滚动页面等等 下面我们以淘宝网为例来实现一下 """ selenium模块的更多自动化操作: - 搜索 - 点击 - 滚动
阅读全文
摘要:前言 我们之前做过一些数据是动态加载的爬取案例,如: 练习request模块中的综合案例 练习异步爬虫中的爬取梨视频热门音乐板块 这些动态数据从何加载而来是需要我们通过浏览器抓包工具来找到的。 此外,我们还做过一些模拟登陆的例子。获取登录按钮链接的post请求来登录用户。 如果有那么一个模块,能够帮
阅读全文
摘要:协程 1. 什么是协程 协程并不是计算机本身提供,而是由程序员人为创造。 协程也可以被称为微线程。是一种用户态上下文切换的技术。简而言之就是一个线程来回切换执行代码块。 协程实现的方法:现在主要推荐使用async和await关键字来实现(py3.6) 2. 协程的意义 在一个线程中,如果遇到IO等待
阅读全文
摘要:前言 **异步爬虫的目的:**提高数据爬取的性能和效率 异步爬虫的方式 多线程/多进程 为相关阻塞的操作单独开启线程或进程,使得阻塞操作可以异步执行。但是由于资源有限,我们并不能无限制的开启多线程或多进程。 线程池/进程池 可以降低系统为了创建和销毁线程或进程而产生的开销。但是池中的线程或进程仍然是
阅读全文
摘要:http/https协议的特性:无状态 模拟登录之后仍然没有请求到对应页面的信息是因为 发起第二次基于个人页面的请求时,服务器端并不知道还请求是基于用户登录的请求 cookie:用来让服务器端记录客户端相关状态 那么解决这个问题就可以有下面两种方法: 手动Cookie方法(利用浏览器抓包工具获取Co
阅读全文
摘要:为什么需要识别验证码 验证码是网站的一种反措施,有些时候我们需要登陆用户才可以获取到我们想要的数据,所以验证码识别是必要的。 验证码识别操作: 人工肉眼识别(不推荐) 第三方自动识别 云打码(无了) 超级鹰:http://www.chaojiying.com 图鉴:http://www.ttshit
阅读全文
摘要:前言 xpath解析方式可以说是最常用最便捷高效的一种解析方式了。而且具有很高的通用性。 环境的安装 pip install lxml xpath解析原理 1. 实例化一个etree对象,并且需要将被解析的页面源码数据加载到该对象中。 2. 调用etree对象中的xpath方法结合着xpath表达式
阅读全文
摘要:bs4解析概述 bs4解析技术是python独有的一种数据解析方式 bs4实现数据解析原理: 实例化一个BeautifulSoup对象,并将页面源码加载到该数据中 加载本地的html # 本地加载 fp1 = open("../data2/test.html", 'r', encoding="utf
阅读全文
摘要:概述 Q: 什么是聚焦爬虫 A: 聚焦爬虫 (又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁,自动索引,模拟程序或者蠕虫。 Q:什么是数据解析 A: 简而言之就是在获取到的整张页面提
阅读全文
摘要:什么是requests模块 request模块是python原生的基于网络请求的模块,功能十分强大,简单便捷,效率极高。 你可以把它看作是模拟浏览器发起请求 request模块使用步骤 指定url UA伪装 请求参数处理 发起请求 获取相应数据 持久化存储 一些例子 练习1:实现一个简单的网页采集器
阅读全文