爬虫 - 随笔分类 - 阿布_alone

爬虫关于编解码

摘要：1.现象如下： Traceback (most recent call last): File "E:\spiders\caipiao.py", line 37, in <module> print(response.content.decode('gbk', errors='strict')) U 阅读全文

posted @ 2024-12-20 14:27 阿布_alone 阅读(103) 评论(0) 推荐(0)

关于scrapy爬虫的注意事项

摘要：1. 图片下载的设置 class ClawernameSpider(scrapy.Spider): # 定制化设置 custom_settings = { 'LOG_LEVEL': 'DEBUG', # Log等级，默认是最低级别debug 'ROBOTSTXT_OBEY': False, # de 阅读全文

posted @ 2023-08-02 19:41 阿布_alone 阅读(347) 评论(0) 推荐(0)

关于异步请求的两个案例

摘要：下载百度图片： import asyncio import json import random import re import httpx import requests import time from urllib import parse import os from loguru imp 阅读全文

posted @ 2023-07-27 17:03 阿布_alone 阅读(90) 评论(0) 推荐(0)

scrapy-yield scrapy.Request()不执行、失效、Filtered offsite request to错误 [转]

摘要：scrapy错误：yield scrapy.Request()不执行、失效、Filtered offsite request to错误。首先我们在Request（）方法里面添加这么一个东东：yield Request(url, callback=self.parse_item, dont_filte 阅读全文

posted @ 2023-07-27 14:45 阿布_alone 阅读(259) 评论(0) 推荐(0)

关于selenium加载用户文件保持登录状态

摘要：如下脚本是一个微博用selenium'自动化登录的简单例子 import time from selenium import webdriver from loguru import logger from selenium.webdriver.chrome.options import Optio 阅读全文

posted @ 2023-07-01 00:17 阿布_alone 阅读(654) 评论(0) 推荐(0)

拼接个URL你也能搞错,还写个屁的爬虫

摘要：在写爬虫的过程中，我们经常需要解析网站的列表页。例如下面这个例子： <html> <head> <meta charset="utf-8"> <title>测试相对路径</title> </head> <body> <div> <h1>书籍列表</h1> <ul> <li><a href="http 阅读全文

posted @ 2022-03-09 00:29 阿布_alone 阅读(354) 评论(0) 推荐(0)

Python 爬虫时，如何替换 URL 中的 query 字段？

摘要：在我们写爬虫的时候，可能会需要在爬虫里面基于当前url生成一个新的url。例如下面这段伪代码： import re current_url = 'https://www.kingname.info/archives/page/2/' current_page = re.search('/(\d+)' 阅读全文

posted @ 2022-03-09 00:22 阿布_alone 阅读(669) 评论(0) 推荐(0)

通用爬虫技术：如何正确从 URL 中移除无效参数

摘要：我们知道，URL 由下面几个部分组成：其中Query部分，中文叫做查询参数。它在 URL 中，是由等号连接的键值对。这些键值对有一些是有效的，例如： https://open.163.com/newview/movie/courseintro?newurl=MDAPTVFE8 这个网址中的newu 阅读全文

posted @ 2022-03-09 00:15 阿布_alone 阅读(257) 评论(0) 推荐(0)

关于re.sub从匹配的文本中处理后之际替换匹配匹配到的数据

摘要：以往我们进行一个正则替换都是直接把和模板匹配到的文本直接替换成一个写死的文本，如： import re a = 'asdad123456asdasd' b = re.sub("\d", "*", a) print(b) 但是呢，现在我们有个需求，从匹配的文本中进行一个提取和处理，在替换回来，这个怎么阅读全文

posted @ 2022-03-08 23:39 阿布_alone 阅读(149) 评论(0) 推荐(0)

api接口简单实现（node环境）

摘要：相信大家都遇到过这样的问题，在node运行成功的一份js在python中调用报错很多人的第一想法都是找错，但是笔者也不知道这是啥问题，推荐大家搭建接口调用js，除了方便快捷，在生产环境中还能提高效率 01 首先是逆向代码，这里简单使用一个rsa加密作为案例(encrypt.js) const {g 阅读全文

posted @ 2022-03-08 23:11 阿布_alone 阅读(224) 评论(0) 推荐(0)

爬虫必备-如何使用Chrome DevTools花式打断点

摘要：参考这份指南，结合自己手上的vue项目进行实践，可以说对原指南进行了plus，因为实践过程中会有很多指南之外的新发现。主要内容包括如下：预览几种不同的breakpoint类型代码行级(Line-of-code)断点代码里的某一行上打断点有条件的行级断点管理行级断点 DOM变化级断点几种阅读全文

posted @ 2022-03-05 15:54 阿布_alone 阅读(998) 评论(0) 推荐(0)

Chrome 开发者工具的最佳用法

摘要：当您的代码没有按照预期执行的时候，您是否还在用 console.log 来进行调试？如果是，那这篇文章就是为您准备的。我写这篇文章的目的是让您了解 Chrome 开发工具提供的高效工具，让您可以更好、更快地调试 Javascript 代码。本文主要讲述以下几点内容：设置断点以调试特定行的代码阅读全文

posted @ 2022-03-05 15:36 阿布_alone 阅读(274) 评论(0) 推荐(0)

你真的会写爬虫吗？

摘要：1写在前面的话咱们直接进入今天的主题你真的会写爬虫吗？为啥标题是这样，因为我们日常写小爬虫都是一个py文件加上几个请求，但是如果你去写一个正式的项目时，你必须考虑到很多种情况，所以我们需要把这些功能全部模块化，这样也使我们的爬虫更加的健全。 2基础爬虫的架构以及运行流程首先，给大家来讲讲基础爬阅读全文

posted @ 2022-03-05 15:24 阿布_alone 阅读(82) 评论(0) 推荐(0)

为什么你用Scrapy 无法使用 Cookies登录

摘要：我们知道，网站使用 Cookies 来记录用户的登录状态。如果我们从浏览器中把 Cookies 复制下来，放到爬虫中，在某些情况下，就可以让爬虫直接访问到登录后的页面。以练习页面http://exercise.kingname.info/exercise_login_success为例。在没有登录阅读全文

posted @ 2022-03-05 00:15 阿布_alone 阅读(418) 评论(0) 推荐(0)

如何正确在 PyCharm 中调试 Scrapy 爬虫？

摘要：最近有不少同学在粉丝群里面问，如何调试Scrapy 爬虫。有些人不知道如何让 Scrapy 爬虫进入调试模式；还有一些人不知道怎么单步调试。怎么进入调试模式我们知道，Scrapy 项目要启动爬虫的时候，需要在终端或者 CMD 中执行一段命令scrapy crawl 爬虫名。但是，PyCharm 阅读全文

posted @ 2022-03-05 00:09 阿布_alone 阅读(510) 评论(0) 推荐(0)

如何使用参数给 Scrapy 爬虫增加属性

摘要：如何使用参数给 Scrapy 爬虫增加属性在Scrapy 项目中，我们有时候需要在启动爬虫的时候，传入一些参数，从而让一份代码执行不同的逻辑。这个时候，有一个非常方便的方法，就是使用-a参数。它的语法为： scrapy crawl 爬虫名 -a 参数1 -a 参数2 -a 参数3 那么，传入的这些阅读全文

posted @ 2022-03-05 00:01 阿布_alone 阅读(377) 评论(0) 推荐(0)

Scrapy 如何正确 Post 发送 JSON 数据

摘要：我们知道，HTTP请求的 POST 方式，提交上去的数据有很多种格式。例如JSON/form-data/x-www-form-urlencoded等等。我们在 Postman 的 POST 请求里面，可以看到这些数据格式，如下图所示：虽然同样都是 POST 方式，但是有些网站只能使用特定的格式才能阅读全文

posted @ 2022-03-04 23:58 阿布_alone 阅读(1112) 评论(0) 推荐(0)

js逆向破解之Hook Cookie

摘要：原理通过油猴插件重写操作Cookie的get和set操作通过指定Cookie名动态进入derbugger模式代码 // ==UserScript== // @name Hook Cookie // @namespace http://tampermonkey.net/ // @version 阅读全文

posted @ 2022-01-16 10:48 阿布_alone 阅读(2755) 评论(1) 推荐(1)

浅度测评：requests、aiohttp、httpx 我应该用哪一个？

摘要：作者 l kingname 来源 l 未闻 Code（ID：itskingname）以下文章来源于未闻Code ，作者kingname 在武汉，房子里待着，不出去影响世界了，转载点文章。在 Python 众多的 HTTP 客户端中，最有名的莫过于requests、aiohttp和httpx。在不阅读全文

posted @ 2021-11-30 00:44 阿布_alone 阅读(488) 评论(0) 推荐(0)

比 requests 更强大 Python 库，让你的爬虫效率提高一倍

摘要：最近公司 Python 后端项目进行重构，整个后端逻辑基本都变更为采用"异步"协程的方式实现。看着满屏幕经过 async await（协程在 Python 中的实现）修饰的代码，我顿时感到一脸懵逼，不知所措。虽然之前有了解过"协程"是什么东西，但并没有深入探索，于是正好借着这次机会可以好好学习一下阅读全文

posted @ 2021-11-30 00:30 阿布_alone 阅读(234) 评论(0) 推荐(0)

阿布alone

随笔分类 - 爬虫

公告