随笔分类 - 爬虫
摘要:1. 图片下载的设置 class ClawernameSpider(scrapy.Spider): # 定制化设置 custom_settings = { 'LOG_LEVEL': 'DEBUG', # Log等级,默认是最低级别debug 'ROBOTSTXT_OBEY': False, # de
阅读全文
摘要:下载百度图片: import asyncio import json import random import re import httpx import requests import time from urllib import parse import os from loguru imp
阅读全文
摘要:scrapy错误:yield scrapy.Request()不执行、失效、Filtered offsite request to错误。首先我们在Request()方法里面添加这么一个东东:yield Request(url, callback=self.parse_item, dont_filte
阅读全文
摘要:如下脚本是一个微博用selenium'自动化登录的简单例子 import time from selenium import webdriver from loguru import logger from selenium.webdriver.chrome.options import Optio
阅读全文
摘要:在写爬虫的过程中,我们经常需要解析网站的列表页。例如下面这个例子: <html> <head> <meta charset="utf-8"> <title>测试相对路径</title> </head> <body> <div> <h1>书籍列表</h1> <ul> <li><a href="http
阅读全文
摘要:在我们写爬虫的时候,可能会需要在爬虫里面基于当前url生成一个新的url。例如下面这段伪代码: import re current_url = 'https://www.kingname.info/archives/page/2/' current_page = re.search('/(\d+)'
阅读全文
摘要:我们知道,URL 由下面几个部分组成: 其中Query部分,中文叫做查询参数。它在 URL 中,是由等号连接的键值对。这些键值对有一些是有效的,例如: https://open.163.com/newview/movie/courseintro?newurl=MDAPTVFE8 这个网址中的newu
阅读全文
摘要:以往我们进行一个正则替换都是直接把和模板匹配到的文本直接替换成一个写死的文本,如: import re a = 'asdad123456asdasd' b = re.sub("\d", "*", a) print(b) 但是呢,现在我们有个需求,从匹配的文本中进行一个提取和处理,在替换回来,这个怎么
阅读全文
摘要:相信大家都遇到过这样的问题,在node运行成功的一份js在python中调用报错 很多人的第一想法都是找错,但是笔者也不知道这是啥问题,推荐大家搭建接口调用js,除了方便快捷,在生产环境中还能提高效率 01 首先是逆向代码,这里简单使用一个rsa加密作为案例(encrypt.js) const {g
阅读全文
摘要:参考这份指南,结合自己手上的vue项目进行实践,可以说对原指南进行了plus,因为实践过程中会有很多指南之外的新发现。 主要内容包括如下: 预览几种不同的breakpoint类型 代码行级(Line-of-code)断点 代码里的某一行上打断点 有条件的行级断点 管理行级断点 DOM变化级断点 几种
阅读全文
摘要:当您的代码没有按照预期执行的时候,您是否还在用 console.log 来进行调试?如果是,那这篇文章就是为您准备的。 我写这篇文章的目的是让您了解 Chrome 开发工具提供的高效工具,让您可以更好、更快地调试 Javascript 代码。 本文主要讲述以下几点内容: 设置断点以调试特定行的代码
阅读全文
摘要:1写在前面的话 咱们直接进入今天的主题 你真的会写爬虫吗?为啥标题是这样,因为我们日常写小爬虫都是一个py文件加上几个请求,但是如果你去写一个正式的项目时,你必须考虑到很多种情况,所以我们需要把这些功能全部模块化,这样也使我们的爬虫更加的健全。 2基础爬虫的架构以及运行流程 首先,给大家来讲讲基础爬
阅读全文
摘要:我们知道,网站使用 Cookies 来记录用户的登录状态。如果我们从浏览器中把 Cookies 复制下来,放到爬虫中,在某些情况下,就可以让爬虫直接访问到登录后的页面。 以练习页面http://exercise.kingname.info/exercise_login_success为例。在没有登录
阅读全文
摘要:最近有不少同学在粉丝群里面问,如何调试Scrapy 爬虫。有些人不知道如何让 Scrapy 爬虫进入调试模式;还有一些人不知道怎么单步调试。 怎么进入调试模式 我们知道,Scrapy 项目要启动爬虫的时候,需要在终端或者 CMD 中执行一段命令scrapy crawl 爬虫名。但是,PyCharm
阅读全文
摘要:如何使用参数给 Scrapy 爬虫增加属性 在Scrapy 项目中,我们有时候需要在启动爬虫的时候,传入一些参数,从而让一份代码执行不同的逻辑。这个时候,有一个非常方便的方法,就是使用-a参数。它的语法为: scrapy crawl 爬虫名 -a 参数1 -a 参数2 -a 参数3 那么,传入的这些
阅读全文
摘要:我们知道,HTTP请求的 POST 方式,提交上去的数据有很多种格式。例如JSON/form-data/x-www-form-urlencoded等等。我们在 Postman 的 POST 请求里面,可以看到这些数据格式,如下图所示: 虽然同样都是 POST 方式,但是有些网站只能使用特定的格式才能
阅读全文
摘要:原理 通过油猴插件重写操作Cookie的get和set操作 通过指定Cookie名动态进入derbugger模式 代码 // ==UserScript== // @name Hook Cookie // @namespace http://tampermonkey.net/ // @version
阅读全文
摘要:作者 l kingname 来源 l 未闻 Code(ID:itskingname) 以下文章来源于未闻Code ,作者kingname 在武汉,房子里待着,不出去影响世界了,转载点文章。 在 Python 众多的 HTTP 客户端中,最有名的莫过于requests、aiohttp和httpx。在不
阅读全文
摘要:最近公司 Python 后端项目进行重构,整个后端逻辑基本都变更为采用"异步"协程的方式实现。看着满屏幕经过 async await(协程在 Python 中的实现)修饰的代码,我顿时感到一脸懵逼,不知所措。 虽然之前有了解过"协程"是什么东西,但并没有深入探索,于是正好借着这次机会可以好好学习一下
阅读全文
摘要:谈到http接口调用,Requests大家并不陌生,例如,robotframework-requests、HttpRunner等HTTP接口测试库/框架都是基于它开发。这里将介绍另一款http接口测试框架:httpx。 它的API和Requests高度一致。 github: https://gith
阅读全文