摘要:
Scrapy Engine: 负责组件之间数据的流转,当某个动作发生时触发事件 Scheduler: 接收requests,并把他们入队,以便后续的调度 Downloader: 负责抓取网页,并传送给引擎,之后抓取结果将传给spider Spiders: 用户编写的可定制化的部分,负责解析respo 阅读全文
摘要:
## scrapy的安装 scrapy的底层依赖于lxml, twisted, openssl,涉及到系统C库,所以有可能会导致安装失败。 ```` pip install scrapy apt install python3-scrapy ```` ## scrapy命令 ###创建项目 ``` 阅读全文
摘要:
创建orm: from peewee import * db = MySQLDatabase("spider", host="127.0.0.1", port=3306, user="root", password="root") class BaseModel(Model): class Meta 阅读全文
摘要:
根据自己的chrome的版本,下载相应的版本: 软件测试: import time from selenium import webdriver from scrapy import Selector from selenium.common.exceptions import NoSuchElem 阅读全文
摘要:
import time from io import BytesIO import random import requests from selenium import webdriver from selenium.webdriver import ActionChains from PIL i 阅读全文
摘要:
概念: 爬虫:批量获取对方的消息 反爬:使用技术,防止被别人爬取 反反爬:使用技术,绕过反爬策略 反爬虫的目的: 1】防止暴力的初级爬虫 2】失控的爬虫,防止一些被遗弃但没有关闭的爬虫 3】重要的数据保存 常见的反爬虫策略: user-agent反爬 ip频率限制 必须登录反爬 解决思路:因为use 阅读全文