2019 年 1月随笔档案 - 浮云遮月

爬虫框架scrapy（3）五大核心组件

摘要：scrapy 五大核心组件的工作流程当执行爬虫文件时，5大核心组件就在工作了 spiders 引擎（Scrapy Engine）管道（item Pipeline）调度器（Scheduler）下载器（Downloader）首先执行爬虫文件spider，spider的作用是（1）解析（2）发请求，原阅读全文

posted @ 2019-01-14 21:43 浮云遮月阅读(727) 评论(0) 推荐(0) 编辑

爬虫框架scrapy（2）post请求，传递item参数，加速爬虫效率，UA池及代理池

摘要：scrapy 发送post请求核心：重写父类 start_requests方法，默认的 start_requests方法提交的是yield scrapy.Request(url=url,formdata=formdata,callback=self.parse)这种get请求，改写为 yield 阅读全文

posted @ 2019-01-14 21:41 浮云遮月阅读(1095) 评论(0) 推荐(0) 编辑

爬虫框架scrapy（1）持久化存储的多种方式及多页爬取数据

摘要：Linux：pip3 install scrapy window: a:pip3 install wheel b:下载twisted高性能异步模块 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c:进入下载的目录执行pip3 install 阅读全文

posted @ 2019-01-14 21:25 浮云遮月阅读(492) 评论(0) 推荐(0) 编辑

爬虫之selenium

摘要：安装 1 进入虚拟环境下安装 selenium :在cmd下输入 activate base 2 pip install selenium 简介: selenium 就是利用浏览器驱动模拟浏览器访问爬取页面, 优点:能有效的解决某些动态资源访问困难的问题缺点:需要根据浏览器的具体版本选择下载浏览器阅读全文

posted @ 2019-01-10 21:35 浮云遮月阅读(227) 评论(0) 推荐(0) 编辑

redis相关

摘要：近乎所有与python相关的面试都会问到缓存的问题，基础一点的会问到什么是“二八定律”、什么是“热数据和冷数据”，复杂一点的会问到缓存雪崩、缓存穿透、缓存预热、缓存更新、缓存降级等问题，这些看似不常见的概念，都与我们的缓存服务器相关，一般常用的缓存服务器有Redis、Memcached等，下面就来说阅读全文

posted @ 2019-01-09 21:13 浮云遮月阅读(97) 评论(0) 推荐(0) 编辑

爬虫之requests模块2

摘要：今日内容 session处理cookie proxies参数设置请求代理ip 基于线程池的数据爬取知识点回顾 xpath的解析流程 bs4的解析流程常用xpath表达式常用bs4解析方法引入有些时候，我们在使用爬虫程序去爬取一些用户相关信息的数据（爬取张三“人人网”个人主页数据）时，如果使阅读全文

posted @ 2019-01-08 21:18 浮云遮月阅读(187) 评论(0) 推荐(0) 编辑

爬虫之数据解析

摘要：引入回顾requests实现数据爬取的流程其实，在上述流程中还需要较为重要的一步，就是在持久化存储之前需要进行指定数据解析。因为大多数情况下的需求，我们都会指定去使用聚焦爬虫，也就是爬取页面中指定部分的数据值，而不是整个页面的数据。因此，本次课程中会给大家详细介绍讲解三种聚焦爬虫中的数据解析方式阅读全文

posted @ 2019-01-08 21:18 浮云遮月阅读(232) 评论(0) 推荐(0) 编辑

爬虫之requests模块

摘要：引入 Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。警告：非专业使用其他 HTTP 库会导致危险的副作用，包括：安全缺陷症、冗余代码症、重新发明轮子症、啃文档症、抑郁、头疼、甚至死亡。今日概要基于requests的get请求基于requests模块的p 阅读全文

posted @ 2019-01-08 21:10 浮云遮月阅读(155) 评论(0) 推荐(0) 编辑

HTTP和HTTPS协议

摘要：一.HTTP协议 1.官方概念： HTTP协议是Hyper Text Transfer Protocol（超文本传输协议）的缩写,是用于从万维网（WWW:World Wide Web ）服务器传输超文本到本地浏览器的传送协议。（虽然童鞋们将这条概念都看烂了，但是也没办法，毕竟这就是HTTP的权威官方阅读全文

posted @ 2019-01-08 21:07 浮云遮月阅读(218) 评论(0) 推荐(0) 编辑

浮云遮月

01 2019 档案

公告