摘要: pipelines.py配置 import pymysql from twisted.enterprise import adbapi from yangguang.items import GuSuItem class YangguangPipeline: def __init__(self, d 阅读全文
posted @ 2021-04-26 17:18 Eliphaz 阅读(324) 评论(0) 推荐(0) 编辑
摘要: 一、爬虫程序与浏览器的差异 造成爬虫程序无法“所见即所得”的主要原因是,很多反爬虫手段利用了浏览器和爬虫程序之间的差异。而差异是浏览器具有 解释HTML、JavaScript和CSS的能力,而爬虫程序不具备。 二、浏览器的主要结构 (1)主要组件: 用户界面:包括地址栏、前进、后退、刷新等按钮、页面 阅读全文
posted @ 2021-04-26 16:59 Eliphaz 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 路径陷阱:列表页获取的url动手脚,与实际 import json import scrapy from yangguang.items import GuSuItem class GusuSpider(scrapy.Spider): name = 'gusu' # allowed_domains 阅读全文
posted @ 2021-04-26 16:58 Eliphaz 阅读(91) 评论(0) 推荐(0) 编辑
摘要: 一、常见信号 信号是控制nginx工作状态的模块,我们可以在终端使用信号来控制nginx的启动、停止和配置重载等。 1、快速关机(stop): 2、正常关机(quit):处理完当前请求后再停止工作进程 nginx -s quit 3、重新加载配置文件(reload):在不影响当前任务处理的情况下让n 阅读全文
posted @ 2021-04-26 10:39 Eliphaz 阅读(48) 评论(0) 推荐(0) 编辑