随笔档案「2021年4月」 - Eliphaz

异步爬虫之多任务异步协程

摘要：一、前提条件（1）如果想要使用该模式进行异步的数据爬取必须：将等待即将爬取的页面url单独的抽取存储到一个列表中（2）通常情况下的玩法：使用requests将等待爬取的页面的url获取将url写入列表，使用多任务异步协程爬取列表中的页面数据 #特殊函数内部：不可以出现不支持异步模块，reque 阅读全文

posted @ 2021-04-29 11:29 Eliphaz 阅读(157) 评论(0) 推荐(0)

Scrapy之异步配置

摘要：pipelines.py配置 import pymysql from twisted.enterprise import adbapi from yangguang.items import GuSuItem class YangguangPipeline: def __init__(self, d 阅读全文

posted @ 2021-04-26 17:18 Eliphaz 阅读(349) 评论(0) 推荐(0)

爬虫之深入了解浏览器

摘要：一、爬虫程序与浏览器的差异造成爬虫程序无法“所见即所得”的主要原因是，很多反爬虫手段利用了浏览器和爬虫程序之间的差异。而差异是浏览器具有解释HTML、JavaScript和CSS的能力，而爬虫程序不具备。二、浏览器的主要结构（1）主要组件：用户界面：包括地址栏、前进、后退、刷新等按钮、页面阅读全文

posted @ 2021-04-26 16:59 Eliphaz 阅读(315) 评论(0) 推荐(0)

蜜罐之url动手脚

摘要：路径陷阱：列表页获取的url动手脚，与实际 import json import scrapy from yangguang.items import GuSuItem class GusuSpider(scrapy.Spider): name = 'gusu' # allowed_domains 阅读全文

posted @ 2021-04-26 16:58 Eliphaz 阅读(113) 评论(0) 推荐(0)

Nginx笔记

摘要：一、常见信号信号是控制nginx工作状态的模块，我们可以在终端使用信号来控制nginx的启动、停止和配置重载等。 1、快速关机（stop）： 2、正常关机（quit）：处理完当前请求后再停止工作进程 nginx -s quit 3、重新加载配置文件（reload）：在不影响当前任务处理的情况下让n 阅读全文

posted @ 2021-04-26 10:39 Eliphaz 阅读(72) 评论(0) 推荐(0)

反爬之禁止F12和无限Debugger

摘要：例：https://www.aqistudy.cn/ （1）无痕打开浏览器，输入网址前先打开控制台后（避免被监测禁止打开），输入网址会看到（2）右键点击Add conditional breakpoint （3）输入false运行，接下来就可以抓包分析阅读全文

posted @ 2021-04-22 13:34 Eliphaz 阅读(662) 评论(0) 推荐(0)

反爬虫之防盗链

摘要：防盗链（起始url溯源）：发起请求URL的上一个URL是否符合要求（跟Referer相关）（1）对比Json数据中的视频链接（无效）和有效视频链接，可以发现有效视频链接是再Json链接基础上进行了加工。（2）对比原始页面链接和有效视频链接，可以发现video_id的联系（3）拼接好url，会发阅读全文

posted @ 2021-04-22 13:33 Eliphaz 阅读(356) 评论(0) 推荐(0)

Scrapy面试合集

摘要：（1）Scrapy爬虫工作流程 ScrapyEngine：引擎 Scheduler：调度器（队列） Downloader：下载器 DownloaderMiddlewares：可选，主要有User_Agent, Proxy代理 Spiders：爬虫（提取数据、url） ItemPipeline：管道阅读全文

posted @ 2021-04-14 17:40 Eliphaz 阅读(360) 评论(0) 推荐(0)

Appium之Unhandled error: Error: ENOENT, no such file or directory ‘D:\android-sdk-windows\build-tools’

摘要：缺少build-tools相关文件阅读全文

posted @ 2021-04-13 10:35 Eliphaz 阅读(127) 评论(0) 推荐(0)

Python列表底层剖析

摘要：。。阅读全文

posted @ 2021-04-06 20:58 Eliphaz 阅读(48) 评论(0) 推荐(0)

Python元组底层剖析（缓存机制）及面试题

摘要：再Python中创建一个元组时，本质上就是创建一个结构体对象。元组的核心结构体简化后如下： typedef struct{ struct _object *_ob_next; struct _object *_ob_prev; //双向环状链表中上一个和下一个，python内部将对象 Py_ssi 阅读全文

posted @ 2021-04-06 20:57 Eliphaz 阅读(678) 评论(0) 推荐(0)

爬虫检测技术之指纹识别、canvas指纹

摘要：现行的网络爬虫检测技术中，主要有以下两大类：行为检测指纹识别（1）行为检测：通过分析网页上用户的操作（鼠标的移动、点击、滚动行为和浏览行为）来判断操作者是否是机器控制的网络爬虫。（2）指纹识别：通过分析设备和浏览器的信息来判断访问者是否为网络爬虫。每一台电脑、每一个操作系统、每一个浏览器，阅读全文

posted @ 2021-04-02 11:46 Eliphaz 阅读(2199) 评论(0) 推荐(0)

Eliphaz

04 2021 档案

公告