休耕 - 博客园

2018年12月12日

摘要：一、Nginx虚拟主机一个web服务器软件默认情况下只能发布一个web，因为一个web分享出去需要三个条件（IP、Port、Domain name） Nginx 虚拟主机实现一个web服务器软件发布多个web 。虚拟主机就是将一台物理服务器划分成多个“虚拟”的服务器，每个虚拟主机都可以有独阅读全文

posted @ 2018-12-12 23:40 休耕阅读(562) 评论(0) 推荐(0) 编辑

2018年12月11日

Nginx管理(一)

摘要：一、Nginx介绍 Nginx (engine x) 是一个高性能的HTTP和反向代理服务，也是一个IMAP/POP3/SMTP服务。 1、Nginx历史和特性 Nginx是由伊戈尔·赛索耶夫为俄罗斯访问量第二的Rambler.ru站点（俄文：Рамблер）开发的，第一个公开版本0.1.0发布于2 阅读全文

posted @ 2018-12-11 13:49 休耕阅读(591) 评论(0) 推荐(0) 编辑

2018年12月9日

业务环境、测试、上线逻辑

摘要：一、业务部署逻辑 1、服务器部署架构 2、软件部署文档 3、日常维护文档二、测试 1、开发上传代码到源码系统 2、上线一测服务器（内测） 3、预发布测试（公测）三、上线 1、产品需求确认 2、产品研发确认 3、产品测试确认 4、上线流程文档 5、跟着统计用户反馈情况阅读全文

posted @ 2018-12-09 22:57 休耕阅读(372) 评论(0) 推荐(0) 编辑

服务器部署逻辑

摘要：一、服务器选择服务器，也称伺服器，是提供计算服务的设备。现在可选择的服务器主要分为两种：物理服务器和云服务器。 1、物理服务器物理服务器的构成包括处理器、硬盘、内存、系统总线等，和通用的计算机架构类似，但是由于需要提供高可靠的服务，因此在处理能力、稳定性、可靠性、安全性、可扩展性、可管理性等方面阅读全文

posted @ 2018-12-09 21:26 休耕阅读(2104) 评论(0) 推荐(0) 编辑

python面试题——爬虫相关

摘要： 1、接触过几种爬虫模块 urllib、requests这两种爬虫模块。 2、robots协议是什么？它就是一个防君子不防小人的协议，网站有一些数据不想被爬虫程序爬取，可以编写robots协议文件，明确指明哪些内容可以爬取哪些不可以爬取。 requests模块中并没有使用硬性的语法对该协议进行生效操阅读全文

posted @ 2018-12-09 14:12 休耕阅读(926) 评论(0) 推荐(0) 编辑

Scrapy框架之基于RedisSpider实现的分布式爬虫

摘要：需求：爬取的是基于文字的网易新闻数据(国内、国际、军事、航空)。基于Scrapy框架代码实现数据爬取后，再将当前项目修改为基于RedisSpider的分布式爬虫形式。一、基于Scrapy框架数据爬取实现 1、项目和爬虫文件创建 2、爬虫文件编写——解析新闻首页获取四个板块的url 执行爬虫文件，阅读全文

posted @ 2018-12-09 02:06 休耕阅读(3824) 评论(0) 推荐(0) 编辑

2018年12月8日

Scrapy框架之分布式操作

摘要：一、分布式爬虫介绍分布式爬虫概念：多台机器上执行同一个爬虫程序，实现网站数据的分布爬取。 1、原生的Scrapy无法实现分布式爬虫的原因？调度器无法在多台机器间共享：因为多台机器上部署的scrapy会各自拥有各自的调度器，这样就使得多台机器无法分配start_urls列表中的url。管道无法阅读全文

posted @ 2018-12-08 00:59 休耕阅读(1780) 评论(0) 推荐(2) 编辑

2018年12月6日

Scrapy框架之CrawlSpider

摘要：针对问题：如果想对某一个网站的全站数据进行爬取，该如何处理？解决方案： 1. 手动请求的发送：基于Scrapy框架中的Spider的递归爬取进行实现（Request模块递归回调parse方法） 2. CrawlSpider：基于CrawlSpider的自动爬取进行实现（更加简洁和高效）一、Cra 阅读全文

posted @ 2018-12-06 13:41 休耕阅读(432) 评论(0) 推荐(0) 编辑

Scrapy框架之日志等级和请求传参

摘要：一、Scrapy的日志等级在使用scrapy crawl spiderFileName运行程序时，在终端里打印输出的就是scrapy的日志信息。 1、日志等级（信息种类） ERROR：错误 WARNING：警告 INFO：一般信息 DEBUG：调试信息（默认） 2、设置日志信息指定输出在sett 阅读全文

posted @ 2018-12-06 08:31 休耕阅读(1124) 评论(0) 推荐(0) 编辑

2018年12月2日

Scrapy框架之代理和cookie

摘要： Cookie 是在 HTTP 协议下，服务器或脚本可以维护客户工作站上信息的一种方式。Cookie 是由 Web 服务器保存在用户浏览器（客户端）上的小文本文件，它可以包含有关用户的信息。无论何时用户链接到服务器，Web 站点都可以访问 Cookie 信息cookie需要个人用户登录网站。场景需求阅读全文

posted @ 2018-12-02 23:53 休耕阅读(512) 评论(0) 推荐(0) 编辑

休耕

公告