随笔分类 -  爬虫

摘要:使用docker部署基于selenium和chrome-headless的爬虫 无论是测试还是爬虫的一些工作,有时候都会用到selenium去对chrome执行自动化操作,这里介绍一下如何使用docker快捷方便的部署相关应用。 1. selenium+chrome镜像 通过docker searc 阅读全文
posted @ 2024-04-11 09:28 小学弟- 阅读(635) 评论(0) 推荐(0) 编辑
摘要:requests获取所有状态码 requests获取所有状态码 requests默认是不会获取301/302的状态码的。可以设置allow_redirects=False,这样就可以获取所有的状态码了 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2 阅读全文
posted @ 2023-03-07 14:49 小学弟- 阅读(376) 评论(0) 推荐(0) 编辑
摘要:python--Scrapy模块的使用二 出处:http://www.cnblogs.com/wupeiqi/ 一:去除重复URL scrapy默认使用 scrapy.dupefilter.RFPDupeFilter 进行去重,相关配置有: DUPEFILTER_CLASS = 'scrapy.du 阅读全文
posted @ 2022-01-10 10:53 小学弟- 阅读(62) 评论(0) 推荐(0) 编辑
摘要:python--Scrapy模块的使用 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。 其可以应用在数据挖掘,信息处理或存储历史数据等一系列的程序中。 Scrapy 使用了 Twisted异步网络库来处理网络通讯。整体架构大致如下 各个组件: Scrapy引擎: 是框架核心,用 阅读全文
posted @ 2022-01-10 10:50 小学弟- 阅读(196) 评论(0) 推荐(0) 编辑
摘要:python Scrapy实现使用Splash进行网页信息爬取 一:回顾Scrapy的使用 二:爬取网址 (一)需求 最近想看漫画,奈何需要注册并支付...,想着爬取图片到本地进行浏览 (二)页面源码 我们可以知道图片网址存在一部分规则,我们可以按照这部分规则进行网站爬取。 但是我们可以知道在Img 阅读全文
posted @ 2022-01-10 10:47 小学弟- 阅读(225) 评论(0) 推荐(0) 编辑
摘要:python-aiohttp的使用 1.aiohttp的简单使用(配合asyncio模块) import asyncio,aiohttp async def fetch_async(url): print(url) async with aiohttp.request("GET",url) as r 阅读全文
posted @ 2022-01-10 10:42 小学弟- 阅读(664) 评论(0) 推荐(0) 编辑
摘要:使用python抓取App数据 本文链接:https://blog.csdn.net/qq_37275405/article/details/81181439 App中的数据可以用网络爬虫抓取么 答案是完全肯定的:凡是可以看到的APP数据都可以抓取。 下面我就介绍下自己的学习经验和一些方法吧 本篇适 阅读全文
posted @ 2021-03-03 11:02 小学弟- 阅读(2784) 评论(0) 推荐(0) 编辑
摘要:scrapy爬虫遇到爬取页面时302重定向导致response页面与实际需要爬取的页面信息不一致,导致无法正常获取信息,查看日志存在 scrapy.downloadermiddlewares.redirect 。 解决方法: 有些网站需要检查cookies头部信息,这样无需登录就能进行访问,所以可以 阅读全文
posted @ 2021-01-18 11:36 小学弟- 阅读(2196) 评论(0) 推荐(0) 编辑
摘要:Python Xpath语法 一、选取节点 常用的路劲表达式: 表达式 描述 实例 nodename 选取nodename节点的所有子节点 xpath(‘//div’) 选取了div节点的所有子节点 / 从根节点选取 xpath(‘/div’) 从根节点上选取div节点 // 选取所有的当前节点,不 阅读全文
posted @ 2020-12-07 16:00 小学弟- 阅读(181) 评论(0) 推荐(0) 编辑
摘要:# -*- coding: utf-8 -*- # @Time : 2020/12/2 9:58 # @Author : ward # @File : 3.py import re import requests import random from parsel import Selector c 阅读全文
posted @ 2020-12-02 15:01 小学弟- 阅读(768) 评论(0) 推荐(0) 编辑
摘要:Scrapy的Request和Response 本文链接:https://blog.csdn.net/kissazhu/article/details/80865773 上节课我们学习了中间件,知道了怎么通过中间件执行反反爬策略。本节课主要介绍Scrapy框架的request对象和response对 阅读全文
posted @ 2020-10-30 12:00 小学弟- 阅读(367) 评论(0) 推荐(0) 编辑
摘要:scrapy使用response.body时编码问题 摘要:scrapy使用response.body时编码问题。如果在使用responses.body获取数据时,需要将其编码转换成unicode,即如下处理: response.body返回的结果是byte字节串,其编码是网页的原编码; 如果在使用 阅读全文
posted @ 2020-10-30 11:57 小学弟- 阅读(1711) 评论(1) 推荐(1) 编辑
摘要:python爬取微信小程序(实战篇) 本文链接:https://blog.csdn.net/HeyShHeyou/article/details/90452656 展开 一、背景介绍 近期有需求需要抓取微信小程序中的数据分析,与一般的网页爬虫类似,主要目标是获取主要的URL地址进行数据爬取,而问题的 阅读全文
posted @ 2020-04-17 16:52 小学弟- 阅读(25427) 评论(0) 推荐(0) 编辑
摘要:Python爬取微信小程序(Charles) 本文链接:https://blog.csdn.net/HeyShHeyou/article/details/90045204 一、前言 最近需要获取微信小程序上的数据进行分析处理,第一时间想到的方式就是采用python爬虫爬取数据,尝试后发现诸多问题,比 阅读全文
posted @ 2020-04-17 16:50 小学弟- 阅读(10377) 评论(0) 推荐(0) 编辑
摘要:scrapy中selenium的应用 引入 在通过scrapy框架进行某些网站数据爬取的时候,往往会碰到页面动态数据加载的情况发生,如果直接使用scrapy对其url发请求,是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现,通过浏览器进行url请求发送则会加载出对应的动态加载出的数据 阅读全文
posted @ 2020-03-16 11:51 小学弟- 阅读(125) 评论(0) 推荐(0) 编辑
摘要:scrapy异常状态码处理 在setting.py中加入 scrapy 的 state 默认只处理200到300之间 # 403状态的响应不被自动忽略,对403 的响应做个性化处理 HTTPERROR_ALLOWED_CODES = [403] # 遇到错误忽略掉不重新请求,则设成[] RETRY_ 阅读全文
posted @ 2020-03-04 17:36 小学弟- 阅读(1235) 评论(0) 推荐(0) 编辑
摘要:python做反被爬保护的方法 网络爬虫,是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。但是当网络爬虫被滥用后,互联网上就出现太多同质的东西,原创得不到保护。于是,很多网站开始反网络爬虫,想方设法保护自己的内容。 一: User-Agent +Referer检测 U 阅读全文
posted @ 2019-07-30 10:16 小学弟- 阅读(423) 评论(0) 推荐(0) 编辑
摘要:Selenium库的基本使用 1.基本使用 from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from 阅读全文
posted @ 2019-07-02 11:39 小学弟- 阅读(399) 评论(0) 推荐(0) 编辑
摘要:Spider基本上能做很多事情了,但是如果你想爬取全站的话,可能需要一个更强大的武器。CrawlSpider基于Spider,但是可以说是为全站爬取而生。CrawlSpiders是Spider的派生类,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一 阅读全文
posted @ 2019-06-21 11:38 小学弟- 阅读(362) 评论(0) 推荐(0) 编辑
摘要:爬虫scrapy框架之CrawlSpider 引入 提问:如果想要通过爬虫程序去爬取全站数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效)。 阅读全文
posted @ 2019-01-15 14:00 小学弟- 阅读(207) 评论(0) 推荐(0) 编辑