上一页 1 2 3 4 5 6 7 ··· 9 下一页
摘要: pipelines.py配置 import pymysql from twisted.enterprise import adbapi from yangguang.items import GuSuItem class YangguangPipeline: def __init__(self, d 阅读全文
posted @ 2021-04-26 17:18 Eliphaz 阅读(323) 评论(0) 推荐(0) 编辑
摘要: 一、爬虫程序与浏览器的差异 造成爬虫程序无法“所见即所得”的主要原因是,很多反爬虫手段利用了浏览器和爬虫程序之间的差异。而差异是浏览器具有 解释HTML、JavaScript和CSS的能力,而爬虫程序不具备。 二、浏览器的主要结构 (1)主要组件: 用户界面:包括地址栏、前进、后退、刷新等按钮、页面 阅读全文
posted @ 2021-04-26 16:59 Eliphaz 阅读(263) 评论(0) 推荐(0) 编辑
摘要: 路径陷阱:列表页获取的url动手脚,与实际 import json import scrapy from yangguang.items import GuSuItem class GusuSpider(scrapy.Spider): name = 'gusu' # allowed_domains 阅读全文
posted @ 2021-04-26 16:58 Eliphaz 阅读(89) 评论(0) 推荐(0) 编辑
摘要: 一、常见信号 信号是控制nginx工作状态的模块,我们可以在终端使用信号来控制nginx的启动、停止和配置重载等。 1、快速关机(stop): 2、正常关机(quit):处理完当前请求后再停止工作进程 nginx -s quit 3、重新加载配置文件(reload):在不影响当前任务处理的情况下让n 阅读全文
posted @ 2021-04-26 10:39 Eliphaz 阅读(48) 评论(0) 推荐(0) 编辑
摘要: 例:https://www.aqistudy.cn/ (1)无痕打开浏览器,输入网址前先打开控制台后(避免被监测禁止打开),输入网址会看到 (2)右键点击Add conditional breakpoint (3)输入false运行,接下来就可以抓包分析 阅读全文
posted @ 2021-04-22 13:34 Eliphaz 阅读(510) 评论(0) 推荐(0) 编辑
摘要: 防盗链(起始url溯源):发起请求URL的上一个URL是否符合要求(跟Referer相关) (1)对比Json数据中的视频链接(无效)和有效视频链接,可以发现有效视频链接是再Json链接基础上进行了加工。 (2)对比原始页面链接和有效视频链接,可以发现video_id的联系 (3)拼接好url,会发 阅读全文
posted @ 2021-04-22 13:33 Eliphaz 阅读(314) 评论(0) 推荐(0) 编辑
摘要: (1)Scrapy爬虫工作流程 ScrapyEngine:引擎 Scheduler:调度器(队列) Downloader:下载器 DownloaderMiddlewares:可选,主要有User_Agent, Proxy代理 Spiders:爬虫(提取数据、url) ItemPipeline:管道 阅读全文
posted @ 2021-04-14 17:40 Eliphaz 阅读(300) 评论(0) 推荐(0) 编辑
摘要: 缺少build-tools相关文件 阅读全文
posted @ 2021-04-13 10:35 Eliphaz 阅读(117) 评论(0) 推荐(0) 编辑
摘要: 。。 阅读全文
posted @ 2021-04-06 20:58 Eliphaz 阅读(41) 评论(0) 推荐(0) 编辑
摘要: 再Python中创建一个元组时,本质上就是创建一个结构体对象。 元组的核心结构体简化后如下: typedef struct{ struct _object *_ob_next; struct _object *_ob_prev; //双向环状链表中上一个和下一个,python内部将对象 Py_ssi 阅读全文
posted @ 2021-04-06 20:57 Eliphaz 阅读(572) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 9 下一页