cknds

2020年4月8日

摘要：项目中单机使用shell脚本进行多个scrapy命令的运行，即同个shell进行多个scrapy命令的执行，这样会大大提高爬取效率，好好利用CPU使用率在shell命令行一次执行多个scrapy命令，可以有三种方式：（一）每个命令之间用；隔开 scrapy crawl a;scrapy cr 阅读全文

posted @ 2020-04-08 11:44 cknds 阅读(313) 评论(0) 推荐(0) 编辑

2020年4月6日

idea 集成插件的两种方式

摘要：使用idea自身安装插件打开File—》Settings 找到Plugins再进行下图操作然后在输入需要的插件名称进行搜索，找到后点击install 另一种方式是直接去http://plugins.jetbrains.com/下载插件先在搜索栏输入插件名然后能看到插件的版本，选择自己可用的版阅读全文

posted @ 2020-04-06 10:10 cknds 阅读(676) 评论(0) 推荐(0) 编辑

2020年4月5日

python语言中threading.Thread类的使用方法

摘要： 1. 编程语言里面的任务和线程是很重要的一个功能。在python里面，线程的创建有两种方式，其一使用Thread类创建 # 导入Python标准库中的Thread模块 from threading import Thread # 创建一个线程 mthread = threading.Thread(t 阅读全文

posted @ 2020-04-05 18:58 cknds 阅读(4901) 评论(0) 推荐(1) 编辑

2020年4月3日

python安装模块如何通过setup.py安装以及如何卸载这种安装

摘要：在安装python的相关模块和库时，我们一般使用“pip install 模块名”或者“python setup.py install”，前者是在线安装，会安装该包的相关依赖包；后者是下载源码包然后在本地安装，不会安装该包的相关依赖包。所以在安装普通的python包时，利用pip工具相当简单有些时阅读全文

posted @ 2020-04-03 14:37 cknds 阅读(5245) 评论(0) 推荐(0) 编辑

2020年3月23日

Python中单下划线和双下划线

摘要：什么是 Python？ Python 之父 Guido van Rossum 说：Python是一种高级程序语言，其核心设计哲学是代码可读性和语法，能够让程序员用很少的代码来表达自己的想法。对于我来说，学习 Python 的首要原因是，Python 是一种可以优雅编程的语言。它能够简单自然地写出代阅读全文

posted @ 2020-03-23 10:25 cknds 阅读(861) 评论(0) 推荐(0) 编辑

2020年3月18日

scrapy在重复爬取的时候删除掉之前爬的旧数据，在爬虫结束的时候收集统计信息

摘要：问题：想在启动scrapy后重复爬取某一天的数据，但是爬取之前需要删除掉之前的旧数据，在哪里实现删除呢？可以在pipeline的open_spider(self,spider)中删除，则在爬虫启动的时候会删除。以下是pipelines.py 文件 # -*- coding: utf-8 -*- 阅读全文

posted @ 2020-03-18 23:19 cknds 阅读(1006) 评论(0) 推荐(0) 编辑

2020年3月12日

requests请求中代理ip中的proxies

摘要： proxies的格式是一个字典：{‘http’: ‘http://42.84.226.65:8888‘} 有http与https两种，在爬取不同网站时我们需要选用不同类型的网站时选用不同的proxise，在不知道网站类型时可以将两种类型均放进去，requests会自动选择合适的 proxies = 阅读全文

posted @ 2020-03-12 23:41 cknds 阅读(6068) 评论(0) 推荐(1) 编辑

requests库怎么验证代理是否有效

摘要：现在要访问一个目标地址是http的地址：http://icanhazip.com/，这个地址可以获取机器的外网ip理论上，由于上述地址是http的，所以使用http代理会通过代理访问该地址，即res =requests.get('http://icanhazip.com/', proxies={'h 阅读全文

posted @ 2020-03-12 23:33 cknds 阅读(937) 评论(0) 推荐(0) 编辑

用MySQL创建定时任务

摘要： -- 查看有哪些定时计划 show events -- 删除名称为risk的定时计划 DROP EVENT IF EXISTS risk; -- 创建定时计划的例子,每天定时，自动将日期加1天 CREATE EVENT `risk_spider_crawl_param_update` ON SCHE 阅读全文

posted @ 2020-03-12 16:32 cknds 阅读(2373) 评论(0) 推荐(0) 编辑

scrapy中如何设置request的重试次数

摘要：在使用scrapy抓取数据的时候使用了代理IP，难免会遇到代理IP失效的情况。因为对数据完整性要求较高，请问如何设置只要没有成功的返回response则把任务重新放进Request队列中去继续爬取？可以使用scrapy自带的 scrapy.downloadermiddlewares.retry. 阅读全文

posted @ 2020-03-12 09:30 cknds 阅读(3031) 评论(0) 推荐(0) 编辑

公告