摘要:
项目中单机使用shell脚本进行多个scrapy命令的运行,即同个shell进行多个scrapy命令的执行,这样会大大提高爬取效率,好好利用CPU使用率 在shell命令行一次执行多个scrapy命令,可以有三种方式: (一)每个命令之间用 ; 隔开 scrapy crawl a;scrapy cr 阅读全文
摘要:
使用idea自身安装插件 打开File—》Settings 找到Plugins再进行下图操作 然后在输入需要的插件名称进行搜索,找到后点击install 另一种方式是直接去http://plugins.jetbrains.com/下载插件 先在搜索栏输入插件名 然后能看到插件的版本,选择自己可用的版 阅读全文
摘要:
1. 编程语言里面的任务和线程是很重要的一个功能。在python里面,线程的创建有两种方式,其一使用Thread类创建 # 导入Python标准库中的Thread模块 from threading import Thread # 创建一个线程 mthread = threading.Thread(t 阅读全文
摘要:
在安装python的相关模块和库时,我们一般使用“pip install 模块名”或者“python setup.py install”,前者是在线安装,会安装该包的相关依赖包;后者是下载源码包然后在本地安装,不会安装该包的相关依赖包。所以在安装普通的python包时,利用pip工具相当简单 有些时 阅读全文
摘要:
什么是 Python? Python 之父 Guido van Rossum 说:Python是一种高级程序语言,其核心设计哲学是代码可读性和语法,能够让程序员用很少的代码来表达自己的想法。 对于我来说,学习 Python 的首要原因是,Python 是一种可以优雅编程的语言。它能够简单自然地写出代 阅读全文
摘要:
问题:想在启动scrapy后重复爬取某一天的数据,但是爬取之前需要删除掉之前的旧数据,在哪里实现删除呢? 可以在pipeline的open_spider(self,spider)中删除,则在爬虫启动的时候会删除。 以下是pipelines.py 文件 # -*- coding: utf-8 -*- 阅读全文
摘要:
proxies的格式是一个字典:{‘http’: ‘http://42.84.226.65:8888‘} 有http与https两种,在爬取不同网站时我们需要选用不同类型的网站时选用不同的proxise,在不知道网站类型时可以将两种类型均放进去,requests会自动选择合适的 proxies = 阅读全文
摘要:
现在要访问一个目标地址是http的地址:http://icanhazip.com/,这个地址可以获取机器的外网ip理论上,由于上述地址是http的,所以使用http代理会通过代理访问该地址,即res =requests.get('http://icanhazip.com/', proxies={'h 阅读全文
摘要:
-- 查看有哪些定时计划 show events -- 删除名称为risk的定时计划 DROP EVENT IF EXISTS risk; -- 创建定时计划的例子,每天定时,自动将日期加1天 CREATE EVENT `risk_spider_crawl_param_update` ON SCHE 阅读全文
摘要:
在使用scrapy抓取数据的时候使用了代理IP,难免会遇到代理IP失效的情况。 因为对数据完整性要求较高,请问如何设置只要没有成功的返回response则把任务重新放进Request队列中去继续爬取? 可以使用scrapy自带的 scrapy.downloadermiddlewares.retry. 阅读全文