随笔分类 -  爬虫

 
scrapy框架的初始
摘要:Scrapy框架(爬虫框架) 什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化存储等)的具有很强通用性的项目模板。对于框架的学习,重点是要学习其框架的特性、 阅读全文
posted @ 2020-04-15 20:51 异步非阻塞 编辑
提升request模块的效率--线程池
摘要:普通方法:爬取梨视频 import re import time import random import requests from lxml import etree start_time = time.time() url = "https://www.pearvideo.com/catego 阅读全文
posted @ 2020-04-15 20:37 异步非阻塞 编辑
selenium的用法
摘要:一、selenium概念 用来完成浏览器自动化的相关操作 使用程序编写一系列的键盘、鼠标的相关操作(让浏览器来完成), 当我们执行代码时,就会触发一系列的事件 二、selenium在爬虫中的作用 可以获取动态加载的数据 三、selenium安装 pip install selenium 下载浏览器驱 阅读全文
posted @ 2020-04-15 20:29 异步非阻塞 编辑
模拟登录
摘要:一、模拟登录的意义 当我们需要爬取的数据是登录之后的个人信息, 就需要使用模拟登录 二、使用打码平台处理验证码 云打码 打码兔 三、注册: 普通用户注册 充值题分(1块钱) 开发者用户注册 添加软件下载调用示例 填写相关信息 用户名 密码 软件名称 软件密钥 四、调用实例 import http.c 阅读全文
posted @ 2020-04-15 20:05 异步非阻塞 编辑
cookie和代理
摘要:代理的使用 代理网站 快代理 goubanjia 西词代理 代理的分类属性 高匿: 服务器看不到你的代理IP和你的真实IP 匿名:看得到代理IP,看不到真实IP 透明: 全都可以看到 协议类型: http: 如果访问的是http的网站,就使用这种 https: 访问https的网站需要使用 cook 阅读全文
posted @ 2020-04-14 10:38 异步非阻塞 编辑
聚焦爬虫之正则解析
摘要:一、聚焦爬虫: 如果想要爬取页面中指定的内容,就要用到聚焦爬虫, 必须建立在通用爬虫的基础上 二、聚焦爬虫的编码流程: 指定URL 发送请求 获取响应数据 数据解析 持久化存储 如何实现数据解析: 正则解析(1个案例) bs4(BeautifulSoup4)解析(1个案例) xpath解析(通用性比 阅读全文
posted @ 2020-04-13 22:32 异步非阻塞 编辑
CrawlSpider
摘要:CrawlSpider 它就是一个类,是scrapy.Spider的一个子类(派生类) 功能: 非常强大 很方便的实现全站数据的爬取 两个属性(对象) 链接提取器 如何进行链接的提取 由开发人员制定相关规则 通过相应的规则进行链接的提取 去哪进行链接的提取 就是在页面(起始URL)中提取 规则解析器 阅读全文
posted @ 2020-01-14 19:13 异步非阻塞 编辑
Scrapy初始
摘要:Scrapy框架(爬虫框架) 一、什么是Scrapy? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。 所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化存储等)的具有很强通用性的项目模板。 对于框架的学习,重点是要学习其框架 阅读全文
posted @ 2020-01-12 15:18 异步非阻塞 编辑
提升requests模块的爬取效率
摘要:一、提升requests模块的爬取效率 1、多线程和多进程(不建议使用) 2、线程池或进程池(适当使用) 3、单线程+异步协程(爬虫推荐使用) 二、单线程。爬取某视频到本地 import re import time import random import requests from lxml i 阅读全文
posted @ 2020-01-10 17:42 异步非阻塞 编辑
selenium自动化模块的应用
摘要:一、selenium概念 1、用来完成浏览器自动化的相关操作 2、使用程序编写一系列的键盘、鼠标的相关操作(让浏览器来完成), 当我们执行代码时,就会触发一系列的事件 二、selenium在爬虫中的作用 1、可以获取动态加载的数据 三、selenium安装 1、pip install seleniu 阅读全文
posted @ 2020-01-10 15:00 异步非阻塞 编辑
爬虫基础1-jupyter的安装使用,以及requests的基本用法
摘要:一、 jupyter的使用- 1 jupyter的安装 - pip install jupyter - 2 jupyter的使用 - 创建txt/文件夹/终端/python3 - 3 jupyter的快捷键 创建: a或b 删除l:dd 使用tab补全 执行l: shift+enter 代码或mar 阅读全文
posted @ 2020-01-09 18:36 异步非阻塞 编辑

 

点击右上角即可分享
微信分享提示