摘要: - 当我们在浏览相关网页的时候会发现,某些网站定时会在原有网页数据的基础上更新一批数据,例如某电影网站会实时更新一批最近热门的电影。小说网站会根据作者创作的进度实时更新最新的章节数据等等 - 增量式爬虫就是通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新出的新数据 - 如何进行增量式的 阅读全文
posted @ 2019-03-05 20:27 阵浊秀 阅读(181) 评论(0) 推荐(0) 编辑
摘要: - 为什么原生的scrapy不能实现分布式 - 调度器不能被共享 - 管道无法被共享 - scrapy-redis组件的作用是什么 - 提供了可以被共享的调度器和管道 - 分布式爬虫实现流程 - 爬取抽屉网 标题和作者 # -*- coding: utf-8 -*- import scrapy fr 阅读全文
posted @ 2019-03-05 17:12 阵浊秀 阅读(143) 评论(0) 推荐(0) 编辑
摘要: - CrawlSpider继承自Spider,Spider类的设计原则是只爬取start_url列表中的网页,而CrawlSpider类定义了一些规则(rule)来提供跟进link的方便的机制,从爬取的网页中获取link并继续爬取。 - 创建项目与之前不同 - 简单爬取抽屉网全部url - 糗事百科 阅读全文
posted @ 2019-03-05 16:26 阵浊秀 阅读(124) 评论(0) 推荐(0) 编辑
摘要: - 一 什么是scrapy? - Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,非常出名,非常强悍。所谓的框架就是一个已经被集成了各种功能(高性能异步下载,队列,分布式,解析,持久化等)的具有很强通用性的项目模板。 - 安装 - linux: pip3 install scra 阅读全文
posted @ 2019-03-01 20:03 阵浊秀 阅读(334) 评论(0) 推荐(0) 编辑
摘要: - 斐波那契数列 - 前两项是1,从第三项开始是前两项的和 - 推导式 - 最简单的斐波那契 (效率非常低) - 时间复杂度为O(2的n次方) - 斐波那契 1.0 - 时间复杂度O(n) - 空间复杂度O(n) - 斐波那契2.0 - 时间复杂度O(n) - 空间复杂度O(1) - 通项公式 阅读全文
posted @ 2019-02-25 21:19 阵浊秀 阅读(167) 评论(0) 推荐(0) 编辑
摘要: - 安装 - 创建一个新的工作薄 - 保存 - 修改工作薄的名称 - excel 添加数据 - extel 获取数据 阅读全文
posted @ 2019-02-22 16:09 阵浊秀 阅读(462) 评论(0) 推荐(0) 编辑
摘要: - ansible-playbook命令格式 - 执行顺序 :从上往下 - 特性:幂等性 不管执行多少遍,结果都是一样的 - 简单用法 - 传参 - 方法一 - 方法二 (host文件) - 方法三 (host文件) - 方法四 - 方法五 传参方式的优先级 - setup 模块用于收集远程主机的一 阅读全文
posted @ 2019-02-20 18:01 阵浊秀 阅读(203) 评论(0) 推荐(0) 编辑
摘要: - nginx 80 - http 80 - https 443 - redis 6379 - mongodb 27017 - mysql 3306 - ssh 22 - ftp 21 - windows远程桌面 3389 - windows IIS 80 阅读全文
posted @ 2019-02-20 16:14 阵浊秀 阅读(99) 评论(0) 推荐(0) 编辑
摘要: - ansible安装 - 下载epel源 - 安装ansible - ansible 通过ssh来连接并控制被控节点 - ssh 的认证方式 密码连接 秘钥连接 密码连接 秘钥连接 - ssh密钥登陆 - ansible命令格式 - 查看ansible生成的文件 - ansible hosts文件 阅读全文
posted @ 2019-02-19 18:09 阵浊秀 阅读(150) 评论(0) 推荐(0) 编辑
摘要: - 使用前请先安装sqlalchemy - 创建数据表 - 增删改查 (单表) # 导入创建好的User和engine from create_table import engine,User # 导入 sqlalchemy.orm 中的 sessionmaker 就是创建一个操纵数据库的窗口 fr 阅读全文
posted @ 2019-02-15 17:54 阵浊秀 阅读(201) 评论(0) 推荐(0) 编辑