摘要: Robots协议:也被称作爬虫协议、机器人协议,它的全名叫做网络爬虫排除标准(Robots Exclusion Protocol),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取,它通常是一个叫做 robots.txt 的文本文件,放在网站的根目录下; 当搜索爬虫访问一个站点时,它首先会检查 阅读全文
posted @ 2020-08-23 22:15 陨落的星尘 阅读(187) 评论(0) 推荐(0) 编辑
摘要: pyspider命令行 1 pyspider all # 启动pyspider 2 # pyspider [OPTIONS] COMMAND [ARGS] 3 # 可以查看https://www.cntofu.com/book/156/command.md 4 """ 5 TEXT是需要指定的文本字 阅读全文
posted @ 2020-08-23 22:09 陨落的星尘 阅读(227) 评论(0) 推荐(0) 编辑
摘要: pyspider的架构主要分为Scheduler调度器、Fetcher抓取器、Processer处理器三部分,整个抓取过程都会受到Monitor监控器的监控,抓取的结果被Result Worker结果处理器处理 点击Create按钮创建新项目 1 #!/usr/bin/env python 2 # 阅读全文
posted @ 2020-08-23 22:08 陨落的星尘 阅读(268) 评论(0) 推荐(0) 编辑
摘要: PySpider网络爬虫框架:带有强大的 WebUI、脚本编辑器、任务监控器、项目管理器以及结果处理器,同时它支持多种数据库后端、多种消息队列,另外它还支持 JavaScript 渲染页面的爬取 官方文档:http://docs.pyspider.org/ PyPi:https://pypi.pyt 阅读全文
posted @ 2020-08-23 22:05 陨落的星尘 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 百度字体编辑器:http://fontstore.baidu.com/static/editor/index.html 使用一种自定义的字体格式,新建ttf文件,通过https://cloudconvert.com/ttf-to-svg网站把ttf文件转换为svg文件,然后把svg文件上传http: 阅读全文
posted @ 2020-08-23 21:34 陨落的星尘 阅读(396) 评论(0) 推荐(0) 编辑
摘要: 爬取网站:http://www.dianping.com/xian/ch0 反爬措施:对于某些数字和中文不是直接使用文本显示,如下图,对于"189条点评"中的8和9两个数字,"人均¥283"中的2、8和3三个数字,对于 "灞临路营背后西北200米"中的五个中文,都是经过一层字体加密 1 <!--HT 阅读全文
posted @ 2020-08-23 21:24 陨落的星尘 阅读(524) 评论(0) 推荐(0) 编辑
摘要: 环境要求:windows 10,SonarQube 6.6,JDK 1.8,MySQL 5.7,sonar-scanner 3.3 SonarQube下载页面:https://www.sonarqube.org/downloads/ SonarQube中文文档:https://legacy.gitb 阅读全文
posted @ 2020-08-23 00:33 陨落的星尘 阅读(1173) 评论(0) 推荐(0) 编辑
摘要: 对于Windows10系统来说,启动docker之后,右键点击桌面右下角中的docker图标,选择SettingDocker官方中国区:https://registry.docker-cn.com 网易:http://hub-mirror.c.163.com 中国科技大学:https://docker.mirrors.ustc.edu.cn 阿里云:https://pee6w651.mirror.... 阅读全文
posted @ 2020-08-23 00:12 陨落的星尘 阅读(2195) 评论(0) 推荐(0) 编辑
摘要: win7、win8 系统 win7、win8 等需要利用 docker toolbox 来安装,国内可以使用阿里云的镜像来下载,下载地址:http://mirrors.aliyun.com/docker-toolbox/windows/docker-toolbox/ docker toolbox 是 阅读全文
posted @ 2020-08-22 21:18 陨落的星尘 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 安装Splash:执行完下面命令之后,在浏览器中输入http://localhost:8050/打开Splash页面 1 docker pull scrapinghub/splash # 拉取镜像splash 2 docker run -p 8050:8050 -p 5023:5023 scrapi 阅读全文
posted @ 2020-08-22 21:17 陨落的星尘 阅读(1476) 评论(0) 推荐(0) 编辑