爬虫 - 随笔分类 - 异步非阻塞

scrapy框架的初始

摘要：Scrapy框架(爬虫框架) 什么是Scrapy？ Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化存储等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架的特性、阅读全文

posted @ 2020-04-15 20:51 异步非阻塞编辑

提升request模块的效率--线程池

摘要：普通方法：爬取梨视频 import re import time import random import requests from lxml import etree start_time = time.time() url = "https://www.pearvideo.com/catego 阅读全文

posted @ 2020-04-15 20:37 异步非阻塞编辑

selenium的用法

摘要：一、selenium概念用来完成浏览器自动化的相关操作使用程序编写一系列的键盘、鼠标的相关操作(让浏览器来完成), 当我们执行代码时，就会触发一系列的事件二、selenium在爬虫中的作用可以获取动态加载的数据三、selenium安装 pip install selenium 下载浏览器驱阅读全文

posted @ 2020-04-15 20:29 异步非阻塞编辑

模拟登录

摘要：一、模拟登录的意义当我们需要爬取的数据是登录之后的个人信息, 就需要使用模拟登录二、使用打码平台处理验证码云打码打码兔三、注册: 普通用户注册充值题分（1块钱）开发者用户注册添加软件下载调用示例填写相关信息用户名密码软件名称软件密钥四、调用实例 import http.c 阅读全文

posted @ 2020-04-15 20:05 异步非阻塞编辑

cookie和代理

摘要：代理的使用代理网站快代理 goubanjia 西词代理代理的分类属性高匿: 服务器看不到你的代理IP和你的真实IP 匿名：看得到代理IP，看不到真实IP 透明: 全都可以看到协议类型: http: 如果访问的是http的网站，就使用这种 https: 访问https的网站需要使用 cook 阅读全文

posted @ 2020-04-14 10:38 异步非阻塞编辑

聚焦爬虫之正则解析

摘要：一、聚焦爬虫: 如果想要爬取页面中指定的内容，就要用到聚焦爬虫, 必须建立在通用爬虫的基础上二、聚焦爬虫的编码流程: 指定URL 发送请求获取响应数据数据解析持久化存储如何实现数据解析: 正则解析(1个案例) bs4(BeautifulSoup4)解析(1个案例) xpath解析(通用性比阅读全文

posted @ 2020-04-13 22:32 异步非阻塞编辑

CrawlSpider

摘要：CrawlSpider 它就是一个类，是scrapy.Spider的一个子类(派生类) 功能：非常强大很方便的实现全站数据的爬取两个属性(对象) 链接提取器如何进行链接的提取由开发人员制定相关规则通过相应的规则进行链接的提取去哪进行链接的提取就是在页面(起始URL)中提取规则解析器阅读全文

posted @ 2020-01-14 19:13 异步非阻塞编辑

Scrapy初始

摘要：Scrapy框架(爬虫框架) 一、什么是Scrapy？ Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架，非常出名，非常强悍。所谓的框架就是一个已经被集成了各种功能（高性能异步下载，队列，分布式，解析，持久化存储等）的具有很强通用性的项目模板。对于框架的学习，重点是要学习其框架阅读全文

posted @ 2020-01-12 15:18 异步非阻塞编辑

提升requests模块的爬取效率

摘要：一、提升requests模块的爬取效率 1、多线程和多进程(不建议使用) 2、线程池或进程池(适当使用) 3、单线程+异步协程(爬虫推荐使用）二、单线程。爬取某视频到本地 import re import time import random import requests from lxml i 阅读全文

posted @ 2020-01-10 17:42 异步非阻塞编辑

selenium自动化模块的应用

摘要：一、selenium概念 1、用来完成浏览器自动化的相关操作 2、使用程序编写一系列的键盘、鼠标的相关操作(让浏览器来完成), 当我们执行代码时，就会触发一系列的事件二、selenium在爬虫中的作用 1、可以获取动态加载的数据三、selenium安装 1、pip install seleniu 阅读全文

posted @ 2020-01-10 15:00 异步非阻塞编辑

爬虫基础1-jupyter的安装使用，以及requests的基本用法

摘要：一、 jupyter的使用- 1 jupyter的安装 - pip install jupyter - 2 jupyter的使用 - 创建txt/文件夹/终端/python3 - 3 jupyter的快捷键创建: a或b 删除l：dd 使用tab补全执行l: shift+enter 代码或mar 阅读全文

posted @ 2020-01-09 18:36 异步非阻塞编辑

随笔分类 - 爬虫

导航

统计

随笔分类

阅读排行榜