摘要: Scrapy Engine: 负责组件之间数据的流转,当某个动作发生时触发事件 Scheduler: 接收requests,并把他们入队,以便后续的调度 Downloader: 负责抓取网页,并传送给引擎,之后抓取结果将传给spider Spiders: 用户编写的可定制化的部分,负责解析respo 阅读全文
posted @ 2020-07-21 21:18 topass123 阅读(149) 评论(0) 推荐(0) 编辑
摘要: ## scrapy的安装 scrapy的底层依赖于lxml, twisted, openssl,涉及到系统C库,所以有可能会导致安装失败。 ```` pip install scrapy apt install python3-scrapy ```` ## scrapy命令 ###创建项目 ``` 阅读全文
posted @ 2020-07-21 20:56 topass123 阅读(192) 评论(0) 推荐(0) 编辑
摘要: 创建orm: from peewee import * db = MySQLDatabase("spider", host="127.0.0.1", port=3306, user="root", password="root") class BaseModel(Model): class Meta 阅读全文
posted @ 2020-07-21 11:25 topass123 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 根据自己的chrome的版本,下载相应的版本: 软件测试: import time from selenium import webdriver from scrapy import Selector from selenium.common.exceptions import NoSuchElem 阅读全文
posted @ 2020-07-21 11:14 topass123 阅读(148) 评论(0) 推荐(0) 编辑
摘要: import time from io import BytesIO import random import requests from selenium import webdriver from selenium.webdriver import ActionChains from PIL i 阅读全文
posted @ 2020-07-21 09:58 topass123 阅读(316) 评论(0) 推荐(0) 编辑
摘要: 概念: 爬虫:批量获取对方的消息 反爬:使用技术,防止被别人爬取 反反爬:使用技术,绕过反爬策略 反爬虫的目的: 1】防止暴力的初级爬虫 2】失控的爬虫,防止一些被遗弃但没有关闭的爬虫 3】重要的数据保存 常见的反爬虫策略: user-agent反爬 ip频率限制 必须登录反爬 解决思路:因为use 阅读全文
posted @ 2020-07-21 09:57 topass123 阅读(393) 评论(0) 推荐(0) 编辑