摘要: Downloader Middleware:下载中间件,它处于Scrapy的Request和Response之间的处理模块 在Schedule调度出队列中的Request发送给Downloader下载之前,对Request进行修改 在下载后生成的Response发送给Spider之前,可以对其进行解 阅读全文
posted @ 2020-08-23 22:33 陨落的星尘 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 创建Scrapy项目 1 # https://github.com/My-Sun-Shine/Python/tree/master/Python3/Scrapy_Learn/Scrapy_A 2 scrapy startproject Scrapy_A 项目结构: scrapy.cfg:Scrapy 阅读全文
posted @ 2020-08-23 22:28 陨落的星尘 阅读(940) 评论(0) 推荐(0) 编辑
摘要: 爬虫框架Scrapy:该框架依赖的库比较多,至少需要依赖库有Twisted、lxml、pyOpenSSL;而在不同平台环境又各不相同,所以在安装之前最好确保把一些基本库安装好 官方网站:https://scrapy.org 官方文档:https://docs.scrapy.org PyPi:http 阅读全文
posted @ 2020-08-23 22:18 陨落的星尘 阅读(146) 评论(0) 推荐(0) 编辑
摘要: Robots协议:也被称作爬虫协议、机器人协议,它的全名叫做网络爬虫排除标准(Robots Exclusion Protocol),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取,它通常是一个叫做 robots.txt 的文本文件,放在网站的根目录下; 当搜索爬虫访问一个站点时,它首先会检查 阅读全文
posted @ 2020-08-23 22:15 陨落的星尘 阅读(187) 评论(0) 推荐(0) 编辑
摘要: pyspider命令行 1 pyspider all # 启动pyspider 2 # pyspider [OPTIONS] COMMAND [ARGS] 3 # 可以查看https://www.cntofu.com/book/156/command.md 4 """ 5 TEXT是需要指定的文本字 阅读全文
posted @ 2020-08-23 22:09 陨落的星尘 阅读(227) 评论(0) 推荐(0) 编辑
摘要: pyspider的架构主要分为Scheduler调度器、Fetcher抓取器、Processer处理器三部分,整个抓取过程都会受到Monitor监控器的监控,抓取的结果被Result Worker结果处理器处理 点击Create按钮创建新项目 1 #!/usr/bin/env python 2 # 阅读全文
posted @ 2020-08-23 22:08 陨落的星尘 阅读(268) 评论(0) 推荐(0) 编辑
摘要: PySpider网络爬虫框架:带有强大的 WebUI、脚本编辑器、任务监控器、项目管理器以及结果处理器,同时它支持多种数据库后端、多种消息队列,另外它还支持 JavaScript 渲染页面的爬取 官方文档:http://docs.pyspider.org/ PyPi:https://pypi.pyt 阅读全文
posted @ 2020-08-23 22:05 陨落的星尘 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 百度字体编辑器:http://fontstore.baidu.com/static/editor/index.html 使用一种自定义的字体格式,新建ttf文件,通过https://cloudconvert.com/ttf-to-svg网站把ttf文件转换为svg文件,然后把svg文件上传http: 阅读全文
posted @ 2020-08-23 21:34 陨落的星尘 阅读(396) 评论(0) 推荐(0) 编辑
摘要: 爬取网站:http://www.dianping.com/xian/ch0 反爬措施:对于某些数字和中文不是直接使用文本显示,如下图,对于"189条点评"中的8和9两个数字,"人均¥283"中的2、8和3三个数字,对于 "灞临路营背后西北200米"中的五个中文,都是经过一层字体加密 1 <!--HT 阅读全文
posted @ 2020-08-23 21:24 陨落的星尘 阅读(524) 评论(0) 推荐(0) 编辑
摘要: 环境要求:windows 10,SonarQube 6.6,JDK 1.8,MySQL 5.7,sonar-scanner 3.3 SonarQube下载页面:https://www.sonarqube.org/downloads/ SonarQube中文文档:https://legacy.gitb 阅读全文
posted @ 2020-08-23 00:33 陨落的星尘 阅读(1173) 评论(0) 推荐(0) 编辑
摘要: 对于Windows10系统来说,启动docker之后,右键点击桌面右下角中的docker图标,选择SettingDocker官方中国区:https://registry.docker-cn.com 网易:http://hub-mirror.c.163.com 中国科技大学:https://docker.mirrors.ustc.edu.cn 阿里云:https://pee6w651.mirror.... 阅读全文
posted @ 2020-08-23 00:12 陨落的星尘 阅读(2195) 评论(0) 推荐(0) 编辑