摘要: 众所周知从github上拉一个项目速度特别的慢,最近看见了一个大佬的介绍后将此方法特意将此方法记录下来与更多码友分享下, 操作步骤如图所示 很简单只需在github.com后面加上cnpmjs.org即可.然后你会发现速度比原来快了很多 阅读全文
posted @ 2020-08-01 23:29 中科院院士 阅读(252) 评论(0) 推荐(0) 编辑
摘要: 项目中会偶尔遇到有些jar包无法在maven中添加坐标的情况,这时我们只能通过外部下载的方式将第三方的jar包下载下来,然后引入到项目中去.下面详细介绍如何引入. 方式一: 1.第一步如下 2.第二步: 在 “Dependencies” 标签界面下,点击右边绿色的 “+”号,选择第一个选项“JARs 阅读全文
posted @ 2020-07-06 13:57 中科院院士 阅读(499) 评论(0) 推荐(0) 编辑
摘要: 打开Ubuntu的终端输入如下命令即可: 阅读全文
posted @ 2019-06-24 13:17 中科院院士 阅读(1106) 评论(1) 推荐(1) 编辑
摘要: centos-7下在本地终端里向远程服务器上传文件,在命令行中执行的软件. 安装命令如下: 在终端里输入如下命令: 会弹出如下窗口 选择你要上传的文件即可上传成功. 阅读全文
posted @ 2019-04-29 17:22 中科院院士 阅读(853) 评论(0) 推荐(0) 编辑
摘要: 暂停爬虫项目 首先在项目目录下创建一个文件夹用来存放暂停爬虫时的待处理请求url以及其他的信息.(文件夹名称:job_info) 在启动爬虫项目时候用pycharm自带的终端启动输入下面的命令: 该命令运行后按下一次ctrl+c后scrapy接收到一次暂停的信号注意这里只能按一次ctrl+c如果按了 阅读全文
posted @ 2019-04-03 22:59 中科院院士 阅读(2229) 评论(0) 推荐(0) 编辑
摘要: 把配置参数(chrom_opt)设置好后将其添加到 这样就可以让selenium不加载图片了,可以快速的提高爬虫的效率. 阅读全文
posted @ 2019-04-03 12:08 中科院院士 阅读(484) 评论(0) 推荐(0) 编辑
摘要: Xpath之starts-with(@属性名称,属性字符串相同部分) 以相同的字符开头的用法 在做爬虫时解析html的源码时候可能会遇见以下这种标签, 我们发现这种标签都是id属性名称相差了一个数字或其他的字符串而已,在提取数据时完全没必要写三次xpath表达式.可以直接用以下这种方法去提取数据, 阅读全文
posted @ 2019-04-02 15:09 中科院院士 阅读(444) 评论(0) 推荐(0) 编辑
摘要: # 用生成器(generators)方便地写惰性运算 1 def double_numbers(iterable): 2 for i in iterable: 3 yield i + i # 生成器只有在需要时才计算下一个值。它们每一次循环只生成一个值,而不是把所有的# 值全部算好。# range的返回值也是一个生成器,不然一个1到900000000的列表会花很多时间和... 阅读全文
posted @ 2019-03-19 17:30 中科院院士 阅读(164) 评论(0) 推荐(0) 编辑