上一页 1 2 3 4 5 6 7 ··· 20 下一页
摘要: 转自:https://www.cnblogs.com/jajian/p/10926681.html 业务场景 公司有个借贷的项目,具体业务类似于阿里的蚂蚁借呗,用户在平台上借款,然后规定一个到期时间,在该时间内用户需将借款还清并收取一定的手续费,如果规定时间逾期未还上,则会产生滞纳金。 用户发起借款 阅读全文
posted @ 2020-08-26 09:08 江湖有梦 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 一、文件管理概述 谈及到 Linux 文件管理,首先我们需要了解的就是,我们要对文件做些什么事情?其实无非就是对一个文件进行创建、复制、移动、查看、编辑、压缩、查看、删除等等 二、系统目录结构 首先我们知道 Linux 的目录结构为树状结构,最顶级的目录为根目录 /,其他目录通过挂载可以将它们添加到 阅读全文
posted @ 2020-08-18 20:12 江湖有梦 阅读(141) 评论(0) 推荐(0) 编辑
摘要: 1.什么是Bash shell(壳) Bash Shell是一个命令解释器,它在操作系统的最外层,负责用户程序与内核进行交互操作的一种接口,将用户输入的命令翻译给操作系统,并将处理后的结果输出至屏幕。 通过xshell连接,就是打开了一个bash程序的窗口,不能点鼠标,只能输入命令 当我们使用远程连 阅读全文
posted @ 2020-08-17 20:17 江湖有梦 阅读(145) 评论(0) 推荐(0) 编辑
摘要: 一、Unix 的起源与发展 Unix 是较早被广泛使用的计算机操作系统之一,它的第一版于1969年由 Ken Thompson 在 AT&T 贝尔实验室是实现,1973年 Ken Thompson 与 Dennis Ritchie 用C语言重写了 Unix 的第三版内核 二、开放源代码的发展 源代码 阅读全文
posted @ 2020-08-17 15:45 江湖有梦 阅读(303) 评论(0) 推荐(0) 编辑
摘要: 提升scrapy爬取数据的效率 增加并发: 默认scrapy开启的并发线程为32个,可以适当进行增加。在settings配置文件中修改CONCURRENT_REQUESTS = 100值为100,并发设置成了为100。 降低日志级别: 在运行scrapy时,会有大量日志信息的输出,为了减少CPU的使 阅读全文
posted @ 2020-08-07 08:48 江湖有梦 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 简介 原来scrapy的Scheduler维护的是本机的任务队列(存放Request对象及其回调函数等信息)+本机的去重队列(存放访问过的url地址) 分布式爬取的关键: 1、共享队列 2、重写Scheduler,让其无论是去重还是任务都去访问共享队列 3、为Scheduler定制去重规则(利用re 阅读全文
posted @ 2020-08-06 19:13 江湖有梦 阅读(121) 评论(0) 推荐(0) 编辑
摘要: scrapy的中间件简介 1 都写在middlewares.py 2 爬虫中间件 3 下载中间件 4 要生效,一定要配置,配置文件 下载中间件: 下载中间件的用途 1、在process——request内,自定义下载,不用scrapy的下载 2、对请求进行二次加工,比如 设置请求头 设置cookie 阅读全文
posted @ 2020-08-06 19:12 江湖有梦 阅读(90) 评论(0) 推荐(0) 编辑
摘要: scrapy介绍 通用的网络爬虫框架 架构介绍(框架) 一、scrapy执行流程 五大组件 -引擎(EGINE):大总管,负责控制数据的流向 -调度器(SCHEDULER):由它来决定下一个要抓取的网址是什么,去重 -下载器(DOWLOADER):用于下载网页内容, 并将网页内 容返回给EGINE, 阅读全文
posted @ 2020-08-06 14:49 江湖有梦 阅读(99) 评论(0) 推荐(0) 编辑
摘要: selenium 为了解决requests无法直接执行JavaScript代码的问题 安装: pip3 install selenium 浏览器的驱动: ps:需要下载对应版本的浏览器 http://npm.taobao.org/mirrors/chromedriver/ 84.0.4147.105 阅读全文
posted @ 2020-08-05 16:14 江湖有梦 阅读(193) 评论(0) 推荐(0) 编辑
摘要: xpath xpath: XPath 是一门在 XML 文档中查找信息的语言 三个关键: / 从根节点选取。 // 不管位置,直接找 /@属性名 文本内容: doc=''' <html> <head> <base href='http://example.com/' /> <title>Exampl 阅读全文
posted @ 2020-08-05 16:12 江湖有梦 阅读(131) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 ··· 20 下一页