网络爬虫 - 随笔分类 - S++

python爬虫-CrawlSpider的全站数据爬取

摘要：了解CrawlSpider CrawlSpider是Spider的子类它的创建方式是： scrapy genspider -t crawl spiderName www.xxx.com 创建爬虫文件成功后，我们可以看到它和Spider最大的不同就是多了一个Rule from scrapy.link 阅读全文

posted @ 2022-03-26 16:41 S++ 阅读(202) 评论(0) 推荐(0) 编辑

python爬虫-scrapy下载中间件

摘要：下载中间件在每一个scrapy工程中都有一个名为 middlewares.py 的文件，这个就是中间件文件其中下载中间件的类为 XxxDownloaderMiddleware 其中有这么几个方法 def process_request(self, request, spider): return 阅读全文

posted @ 2022-03-25 08:24 S++ 阅读(92) 评论(0) 推荐(0) 编辑

python爬虫-scrapy持久化存储

摘要：scrapy的持久化存储有两种：基于终端指令的和基于管道的基于终端指令限制：只能将parse方法的返回值存储在本地的文本文件中文件格式只能是，json、jsonlines、jl、csv、xml、marshal、pickle scrapy crawl 爬虫文件 -o 存储路径基于管道编码流阅读全文

posted @ 2022-03-23 20:56 S++ 阅读(98) 评论(0) 推荐(0) 编辑

python爬虫-scrapy数据解析

摘要：一般的数据解析首先创建工程 cd study_scrapy/ # 进入要创建工程的目录 scrapy startproject study_scrapy02 # 创建工程 cd study_scrapy02/ # 进入工程 scrapy genspider gushi www.xxx.com # 阅读全文

posted @ 2022-03-23 20:41 S++ 阅读(137) 评论(0) 推荐(0) 编辑

python爬虫-初识scrapy框架

摘要：什么是scrapy框架介绍 Scrapy是适用于Python的一个快速、高层次的屏幕抓取和web抓取框架，用于抓取web站点并从页面中提取结构化的数据。 Scrapy用途广泛，可以用于数据挖掘、监测和自动化测试。 Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供阅读全文

posted @ 2022-03-22 21:09 S++ 阅读(49) 评论(0) 推荐(0) 编辑

python爬虫-selenium模拟登录

摘要：模拟登录qq空间：有iframe、无验证码 """ selenium模拟登录QQ空间：有iframe、无验证码 """ from selenium import webdriver from selenium.webdriver import ActionChains from selenium.w 阅读全文

posted @ 2022-03-21 21:12 S++ 阅读(780) 评论(0) 推荐(0) 编辑

python爬虫-深入selenium模块

摘要：更多的selenium自动化操作我们之前尝试了如何使用selenium操作浏览器，但是并没有更多的去使用。其实我们可以使用selenium去做更多的事情，如搜索、点击按钮、滚动页面等等下面我们以淘宝网为例来实现一下 """ selenium模块的更多自动化操作: - 搜索 - 点击 - 滚动阅读全文

posted @ 2022-03-19 17:17 S++ 阅读(63) 评论(0) 推荐(0) 编辑

python爬虫-初识selenium模块

摘要：前言我们之前做过一些数据是动态加载的爬取案例，如：练习request模块中的综合案例练习异步爬虫中的爬取梨视频热门音乐板块这些动态数据从何加载而来是需要我们通过浏览器抓包工具来找到的。此外，我们还做过一些模拟登陆的例子。获取登录按钮链接的post请求来登录用户。如果有那么一个模块，能够帮阅读全文

posted @ 2022-03-18 21:44 S++ 阅读(67) 评论(0) 推荐(0) 编辑

python爬虫-异步协程

摘要：协程 1. 什么是协程协程并不是计算机本身提供，而是由程序员人为创造。协程也可以被称为微线程。是一种用户态上下文切换的技术。简而言之就是一个线程来回切换执行代码块。协程实现的方法：现在主要推荐使用async和await关键字来实现（py3.6） 2. 协程的意义在一个线程中，如果遇到IO等待阅读全文

posted @ 2022-03-17 19:23 S++ 阅读(132) 评论(0) 推荐(0) 编辑

python爬虫-异步爬虫

摘要：前言 **异步爬虫的目的：**提高数据爬取的性能和效率异步爬虫的方式多线程/多进程为相关阻塞的操作单独开启线程或进程，使得阻塞操作可以异步执行。但是由于资源有限，我们并不能无限制的开启多线程或多进程。线程池/进程池可以降低系统为了创建和销毁线程或进程而产生的开销。但是池中的线程或进程仍然是阅读全文

posted @ 2022-03-17 18:08 S++ 阅读(219) 评论(0) 推荐(0) 编辑

python爬虫-cookie登录

摘要：http/https协议的特性：无状态模拟登录之后仍然没有请求到对应页面的信息是因为发起第二次基于个人页面的请求时，服务器端并不知道还请求是基于用户登录的请求 cookie：用来让服务器端记录客户端相关状态那么解决这个问题就可以有下面两种方法：手动Cookie方法（利用浏览器抓包工具获取Co 阅读全文

posted @ 2022-03-15 08:53 S++ 阅读(335) 评论(0) 推荐(0) 编辑

python爬虫-验证码识别

摘要：为什么需要识别验证码验证码是网站的一种反措施，有些时候我们需要登陆用户才可以获取到我们想要的数据，所以验证码识别是必要的。验证码识别操作：人工肉眼识别（不推荐）第三方自动识别云打码（无了）超级鹰：http://www.chaojiying.com 图鉴：http://www.ttshit 阅读全文

posted @ 2022-03-13 15:43 S++ 阅读(169) 评论(0) 推荐(0) 编辑

python爬虫-xpath解析

摘要：前言 xpath解析方式可以说是最常用最便捷高效的一种解析方式了。而且具有很高的通用性。环境的安装 pip install lxml xpath解析原理 1. 实例化一个etree对象，并且需要将被解析的页面源码数据加载到该对象中。 2. 调用etree对象中的xpath方法结合着xpath表达式阅读全文

posted @ 2022-03-11 20:48 S++ 阅读(153) 评论(0) 推荐(0) 编辑

python爬虫-bs4解析

摘要：bs4解析概述 bs4解析技术是python独有的一种数据解析方式 bs4实现数据解析原理：实例化一个BeautifulSoup对象，并将页面源码加载到该数据中加载本地的html # 本地加载 fp1 = open("../data2/test.html", 'r', encoding="utf 阅读全文

posted @ 2022-03-08 21:26 S++ 阅读(177) 评论(0) 推荐(0) 编辑

python爬虫-正则解析

摘要：概述 Q：什么是聚焦爬虫 A：聚焦爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁，自动索引，模拟程序或者蠕虫。 Q：什么是数据解析 A：简而言之就是在获取到的整张页面提阅读全文

posted @ 2022-03-06 16:43 S++ 阅读(90) 评论(0) 推荐(0) 编辑

python爬虫-requests模块

摘要：什么是requests模块 request模块是python原生的基于网络请求的模块，功能十分强大，简单便捷，效率极高。你可以把它看作是模拟浏览器发起请求 request模块使用步骤指定url UA伪装请求参数处理发起请求获取相应数据持久化存储一些例子练习1：实现一个简单的网页采集器阅读全文

posted @ 2022-03-02 20:08 S++ 阅读(45) 评论(0) 推荐(0) 编辑

S++

导航

统计

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

随笔分类 - 网络爬虫