04 2019 档案

摘要:centos-7下在本地终端里向远程服务器上传文件,在命令行中执行的软件. 安装命令如下: 在终端里输入如下命令: 会弹出如下窗口 选择你要上传的文件即可上传成功. 阅读全文
posted @ 2019-04-29 17:22 中科院院士 阅读(870) 评论(0) 推荐(0)
摘要:暂停爬虫项目 首先在项目目录下创建一个文件夹用来存放暂停爬虫时的待处理请求url以及其他的信息.(文件夹名称:job_info) 在启动爬虫项目时候用pycharm自带的终端启动输入下面的命令: 该命令运行后按下一次ctrl+c后scrapy接收到一次暂停的信号注意这里只能按一次ctrl+c如果按了 阅读全文
posted @ 2019-04-03 22:59 中科院院士 阅读(2276) 评论(0) 推荐(0)
摘要:把配置参数(chrom_opt)设置好后将其添加到 这样就可以让selenium不加载图片了,可以快速的提高爬虫的效率. 阅读全文
posted @ 2019-04-03 12:08 中科院院士 阅读(499) 评论(0) 推荐(0)
摘要:Xpath之starts-with(@属性名称,属性字符串相同部分) 以相同的字符开头的用法 在做爬虫时解析html的源码时候可能会遇见以下这种标签, 我们发现这种标签都是id属性名称相差了一个数字或其他的字符串而已,在提取数据时完全没必要写三次xpath表达式.可以直接用以下这种方法去提取数据, 阅读全文
posted @ 2019-04-02 15:09 中科院院士 阅读(450) 评论(0) 推荐(0)