随笔分类 - [后端技术栈] Spider
摘要:Scrapy框架的使用 - pySpider - 什么是框架? - 就是一个具有很强通用性且集成了很多功能的项目模板(可以被应用在各种需求中) - scrapy集成好的功能: - 高性能的数据解析操作(xpath) - 高性能的数据下载 - 高性能的持久化存储 - 中间件 - 全栈数据爬取操作 -
阅读全文
摘要:# 抓取梨视频网站的短视频 from lxml import etree import os import requests import re dirName="./videoLibs" if not os.path.exists(dirName): os.mkdir(dirName) url="
阅读全文
摘要:- selenium模块在爬虫中的使用 - 概念:是一个基于浏览器自动化的模块。 - 爬虫之间的关联: - 便捷的捕获到动态加载到的数据。(可见即可得) - 实现模拟登陆 - 环境安装:pip install selenium - 基本使用: - 准备好某一款浏览器的驱动程序:http://chro
阅读全文
摘要:requests抓取数据报错 - HttpConnectinPool: - 原因: - 1.短时间内发起了高频的请求导致ip被禁 - 2.http连接池中的连接资源被耗尽 - 解决: - 1.代理 - 2.headers中加入Conection:“close” 代理服务器 - 代理:代理服务器,可以
阅读全文
摘要:数据解析 - 数据解析 - 数据解析的作用: - 可以帮助我们实现聚焦爬虫 - 数据解析的实现方式: - 正则 - bs4 - xpath - pyquery - 数据解析的通用原理 - 问题1:聚焦爬虫爬取的数据是存储在哪里的? - 都被存储在了相关的标签之中and相关标签的属性中 - 1.定位标
阅读全文
摘要:requests操作流程分析 - requests作用:模拟浏览器发起请求 - urllib:requests的前身 - requests模块的编码流程: - 指定url - 发起请求: - get(url,params,headers) - post(url,data,headers) - 获取响
阅读全文
摘要:一:基础版(抓取首页图片) 爬虫py文件代码: 1 # -*- coding: utf-8 -*- 2 import scrapy 3 import sys 4 import io 5 from scrapy.selector import Selector 6 from scrapy.http i
阅读全文
摘要:1 # __author__:Kelvin 2 # date:2020/4/16 21:55 3 import socket 4 import select 5 6 # 自定义异步IO框架内容 7 #用来封装socket对象,host,和回调函数 8 class HttpRequest: 9 def
阅读全文