2020 年 7月 21 日随笔档案 - topass123

2020年7月21日

摘要： Scrapy Engine：负责组件之间数据的流转，当某个动作发生时触发事件 Scheduler：接收requests，并把他们入队，以便后续的调度 Downloader：负责抓取网页，并传送给引擎，之后抓取结果将传给spider Spiders：用户编写的可定制化的部分，负责解析respo 阅读全文

posted @ 2020-07-21 21:18 topass123 阅读(149) 评论(0) 推荐(0) 编辑

爬虫-scrapy的认识（16）

摘要： ## scrapy的安装 scrapy的底层依赖于lxml, twisted, openssl，涉及到系统C库，所以有可能会导致安装失败。 ```` pip install scrapy apt install python3-scrapy ```` ## scrapy命令 ###创建项目 ``` 阅读全文

posted @ 2020-07-21 20:56 topass123 阅读(192) 评论(0) 推荐(0) 编辑

爬虫-动态获取京东某页面的信息并存储（15）

摘要：创建orm： from peewee import * db = MySQLDatabase("spider", host="127.0.0.1", port=3306, user="root", password="root") class BaseModel(Model): class Meta 阅读全文

posted @ 2020-07-21 11:25 topass123 阅读(293) 评论(0) 推荐(0) 编辑

安装chrome driver（14）

摘要：根据自己的chrome的版本，下载相应的版本：软件测试： import time from selenium import webdriver from scrapy import Selector from selenium.common.exceptions import NoSuchElem 阅读全文

posted @ 2020-07-21 11:14 topass123 阅读(148) 评论(0) 推荐(0) 编辑

爬虫-selenium实现验证码自动登录（14）

摘要： import time from io import BytesIO import random import requests from selenium import webdriver from selenium.webdriver import ActionChains from PIL i 阅读全文

posted @ 2020-07-21 09:58 topass123 阅读(316) 评论(0) 推荐(0) 编辑

爬虫-反爬与反反爬（12）

摘要：概念：爬虫：批量获取对方的消息反爬：使用技术，防止被别人爬取反反爬：使用技术，绕过反爬策略反爬虫的目的： 1】防止暴力的初级爬虫 2】失控的爬虫，防止一些被遗弃但没有关闭的爬虫 3】重要的数据保存常见的反爬虫策略： user-agent反爬 ip频率限制必须登录反爬解决思路：因为use 阅读全文

posted @ 2020-07-21 09:57 topass123 阅读(393) 评论(0) 推荐(0) 编辑

道阻且长，行则将至，行而不辍，未来可期