摘要: 暂停爬虫项目 首先在项目目录下创建一个文件夹用来存放暂停爬虫时的待处理请求url以及其他的信息.(文件夹名称:job_info) 在启动爬虫项目时候用pycharm自带的终端启动输入下面的命令: 该命令运行后按下一次ctrl+c后scrapy接收到一次暂停的信号注意这里只能按一次ctrl+c如果按了 阅读全文
posted @ 2019-04-03 22:59 中科院院士 阅读(2238) 评论(0) 推荐(0) 编辑
摘要: 把配置参数(chrom_opt)设置好后将其添加到 这样就可以让selenium不加载图片了,可以快速的提高爬虫的效率. 阅读全文
posted @ 2019-04-03 12:08 中科院院士 阅读(489) 评论(0) 推荐(0) 编辑
摘要: Crontab 定时器的使用安装:apt-get install cron(服务器环境下默认安装的有)使用:crontab -e 进入编辑页面(第一次会让你选择编辑器) crontab -i 查看当前的定时任务编辑: 分 小时 日 月 星期 命令 0-59 0-23 1-31 1-12 0-6 co 阅读全文
posted @ 2019-04-03 11:49 中科院院士 阅读(358) 评论(0) 推荐(0) 编辑