上一页 1 2 3 4 5 6 7 8 9 10 ··· 21 下一页
摘要: >>>>>https://www.cnblogs.com/Neeo/p/10864123.html#elk 阅读全文
posted @ 2019-04-17 12:20 清风_Z 阅读(138) 评论(0) 推荐(0) 编辑
摘要: 一、介绍 版本控制: 版本控制是一种记录一个或若干文件内容变化,以便将来查阅特定版本修订情况的系统。 git 就是一个分布式版本控制系统 分布式版本控制,没有中央服务器的概念,每个人都有自己的版本库,因此每个人在工作时候,不需要联网,版本库本地即可管理。 既然每个人都是一个完整的版本库,同事之间如果 阅读全文
posted @ 2019-04-16 23:40 清风_Z 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 一、ORM 与 SQLAlchemy 简介 ORM 全称 Object Relational Mapping, 翻译过来叫对象关系映射。简单的说,ORM 将数据库中的表与面向对象语言中的类建立了一种对应关系。这样,我们要操作数据库,数据库中的表或者表中的一条记录就可以直接通过操作类或者类实例来完成。 阅读全文
posted @ 2019-04-10 22:37 清风_Z 阅读(1792) 评论(0) 推荐(0) 编辑
摘要: 一、增量式爬虫 概念:通过爬虫程序监测某网站数据更新的情况,以便可以爬取到该网站更新出的新数据。 如何进行增量式的爬取工作: 在发送请求之前判断这个URL是不是之前爬取过 在解析内容后判断这部分内容是不是之前爬取过 写入存储介质时判断内容是不是已经在介质中存在 分析: 不难发现,其实增量爬取的核心是 阅读全文
posted @ 2019-04-10 22:19 清风_Z 阅读(328) 评论(0) 推荐(0) 编辑
摘要: redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以。原因有二。 其一:因为多台机器上部署的scrapy会各自拥有各自的调度器,这样就使得多台机器无法分配start_urls列表中的url。(多台机器无法共享同一个调度器) 其二:多台机器爬取到的数据无法通过同一个管道对数据 阅读全文
posted @ 2019-03-29 22:00 清风_Z 阅读(515) 评论(0) 推荐(0) 编辑
摘要: 需求: 爬取东方财富证券http://kuaixun.eastmoney.com/ssgs.html的财经新闻数据1.爬取页面中的标题和对应的内容:【标题】内容2.进行分页操作,爬取当前页面所有页码对应的标题和内容数据3.不可以使用selenium4.进行任意形式的持久化存储 代码: 通过对网站的分 阅读全文
posted @ 2019-03-28 21:46 清风_Z 阅读(528) 评论(0) 推荐(0) 编辑
摘要: 需求: 爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/data018d244441062d8916dd472a4c6a0a0b.html页面中的新闻数据。1.爬取当前页中所有新闻的详情内容2.进行任意的持久化存储操作3.注意:新闻详情 阅读全文
posted @ 2019-03-28 21:31 清风_Z 阅读(604) 评论(0) 推荐(0) 编辑
摘要: 一、简介以及环境安装 TuShare是一个著名的免费、开源的python财经数据接口包。其官网主页为:TuShare -财经数据接口包。该接口包如今提供了大量的金融数据,涵盖了股票、基本面、宏观、新闻的等诸多类别数据(具体请自行查看官网),并还在不断更新中。TuShare可以基本满足量化初学者的回测 阅读全文
posted @ 2019-03-28 21:30 清风_Z 阅读(761) 评论(0) 推荐(0) 编辑
摘要: 需求: 使用crawlSpider(全站)进行数据爬取 - 首页: 岗位名称,岗位类别 - 详情页:岗位职责 - 持久化存储 代码: 爬虫文件: items.py文件: 管道文件pipelines.py: 配置文件中注意开启管道 阅读全文
posted @ 2019-03-26 18:24 清风_Z 阅读(465) 评论(0) 推荐(0) 编辑
摘要: 引入 提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法? 方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。 方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效)。 一、CrawlSpider简介 阅读全文
posted @ 2019-03-26 18:17 清风_Z 阅读(646) 评论(0) 推荐(0) 编辑
上一页 1 2 3 4 5 6 7 8 9 10 ··· 21 下一页