09 2019 档案
摘要:伪装浏览器代理 在爬取网页是有些服务器对请求过滤的不是很高可以不用ip来伪装请求直接将自己的浏览器信息给伪装也是可以的。 第一中方法: 1.在setting.py文件中加入以下内容,这是一些浏览器的头信息 1 # encoding: utf-8 2 from scrapy.utils.project
阅读全文
摘要:1. 运行容器,自动下载镜像 2. 创建主机挂载配置文件 conf存放配置文件 data存放数据库文件 3. 初始化配置文件 将数据库初始文件复制到/usr/mysql/data里面 4. 停止删除容器 5. 生成启动文件 - start.sh 参数说明 --hostname \${HOST_NAM
阅读全文
摘要:引自:这里 每条命令使用";"隔开,则无论前边的命令执行成功与否都会继续执行下一条命令这里,故意将第二条命令中的echo多写了一个o,命令执行出错,但并不影响后续命令的执行可以这么想,如果用分号来间隔命令,就相当于将命令分隔在了不同的行,无论前一行的命令成功或失败,都不影响下一行命令的执行。$ ec
阅读全文
摘要:背景: 刚开始学习scrapy爬虫框架的时候,就在想如果我在服务器上执行一个爬虫任务的话,还说的过去。但是我不能每个爬虫任务就新建一个项目吧。例如我建立了一个知乎的爬行任务,但是我在这个爬行任务中,写了多个spider,重要的是我想让他们同时运行,怎么办? 小白解决办法: 1、在spiders同目录
阅读全文
摘要:以伯乐在线文章为爬取目标blog.jobbole.com,发现在"最新文章"选项中可看到所有文章 一般来说,可以用scrapy中自带的xpath或者css来提取数据,定义在spiders/jobbole.py中的def parse(self, response) import scrapy clas
阅读全文
摘要:CentOS7下安装配置python3实验环境操作系统:CentOS Linux release 7.3.1611 (Core) IP: 192.168.230.142下载插件根据官网提示,在centos下安装python3版本需要提前安装如下插件:openssl-devel bzip2-devel
阅读全文
摘要:pip 是 Python 包管理工具,该工具提供了对Python 包的查找、下载、安装、卸载的功能。 目前如果你在 python.org 下载最新版本的安装包,则是已经自带了该工具。 Python 2.7.9 + 或 Python 3.4+ 以上版本都自带 pip 工具。 pip 官网:https:
阅读全文
摘要:背景 由于之前都把零散的知识都写在 Gist 上,要查找的时候不是很系统化,所以打算挪到 GitBook 上来统一管理,而且 GitBook 写完编译后可以生成静态页面发布到博客上,逼格满满的样子。 GitBook 简介 GitBook 官网 GitBook 文档 GitBook 准备工作 安装 N
阅读全文
摘要:Docker支持以下的CentOS版本: CentOS 7 (64-bit) CentOS 6.5 (64-bit) 或更高的版本 前提条件 目前,CentOS 仅发行版本中的内核支持 Docker。 Docker 运行在 CentOS 7 上,要求系统为64位、系统内核版本为 3.10 以上。 D
阅读全文
摘要:scrapy-redis简介 scrapy-redis是scrapy框架基于redis数据库的组件,用于scrapy项目的分布式开发和部署。 有如下特征: 分布式爬取 您可以启动多个spider工程,相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。 分布
阅读全文
摘要:在讲解聚合管道(Aggregation Pipeline)之前,我们先介绍一下 MongoDB 的聚合功能,聚合操作主要用于对数据的批量处理,往往将记录按条件分组以后,然后再进行一系列操作,例如,求最大值、最小值、平均值,求和等操作。聚合操作还能够对记录进行复杂的操作,主要用于数理统计和数据挖掘。在
阅读全文