摘要:
Robots协议:也被称作爬虫协议、机器人协议,它的全名叫做网络爬虫排除标准(Robots Exclusion Protocol),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取,它通常是一个叫做 robots.txt 的文本文件,放在网站的根目录下; 当搜索爬虫访问一个站点时,它首先会检查 阅读全文
摘要:
pyspider命令行 1 pyspider all # 启动pyspider 2 # pyspider [OPTIONS] COMMAND [ARGS] 3 # 可以查看https://www.cntofu.com/book/156/command.md 4 """ 5 TEXT是需要指定的文本字 阅读全文
摘要:
pyspider的架构主要分为Scheduler调度器、Fetcher抓取器、Processer处理器三部分,整个抓取过程都会受到Monitor监控器的监控,抓取的结果被Result Worker结果处理器处理 点击Create按钮创建新项目 1 #!/usr/bin/env python 2 # 阅读全文
摘要:
PySpider网络爬虫框架:带有强大的 WebUI、脚本编辑器、任务监控器、项目管理器以及结果处理器,同时它支持多种数据库后端、多种消息队列,另外它还支持 JavaScript 渲染页面的爬取 官方文档:http://docs.pyspider.org/ PyPi:https://pypi.pyt 阅读全文
摘要:
百度字体编辑器:http://fontstore.baidu.com/static/editor/index.html 使用一种自定义的字体格式,新建ttf文件,通过https://cloudconvert.com/ttf-to-svg网站把ttf文件转换为svg文件,然后把svg文件上传http: 阅读全文
摘要:
爬取网站:http://www.dianping.com/xian/ch0 反爬措施:对于某些数字和中文不是直接使用文本显示,如下图,对于"189条点评"中的8和9两个数字,"人均¥283"中的2、8和3三个数字,对于 "灞临路营背后西北200米"中的五个中文,都是经过一层字体加密 1 <!--HT 阅读全文
摘要:
环境要求:windows 10,SonarQube 6.6,JDK 1.8,MySQL 5.7,sonar-scanner 3.3 SonarQube下载页面:https://www.sonarqube.org/downloads/ SonarQube中文文档:https://legacy.gitb 阅读全文
摘要:
对于Windows10系统来说,启动docker之后,右键点击桌面右下角中的docker图标,选择SettingDocker官方中国区:https://registry.docker-cn.com 网易:http://hub-mirror.c.163.com 中国科技大学:https://docker.mirrors.ustc.edu.cn 阿里云:https://pee6w651.mirror.... 阅读全文