lincappu - 博客园

2020年6月12日

摘要：在前面两篇文章介绍了下载器中间件的使用，这篇文章将会介绍爬虫中间件（Spider Middleware）的使用。爬虫中间件爬虫中间件的用法与下载器中间件非常相似，只是它们的作用对象不同。下载器中间件的作用对象是请求request和返回response；爬虫中间件的作用对象是爬虫，更具体地来说，就阅读全文

posted @ 2020-06-12 13:15 lincappu 阅读(483) 评论(0) 推荐(0) 编辑

彻底搞懂Scrapy的中间件（一）

摘要：中间件是Scrapy里面的一个核心概念。使用中间件可以在爬虫的请求发起之前或者请求返回之后对数据进行定制化修改，从而开发出适应不同情况的爬虫。 “中间件”这个中文名字和前面章节讲到的“中间人”只有一字之差。它们做的事情确实也非常相似。中间件和中间人都能在中途劫持数据，做一些修改再把数据传递出去。不同阅读全文

posted @ 2020-06-12 13:11 lincappu 阅读(436) 评论(0) 推荐(0) 编辑

彻底搞懂Scrapy的中间件（二）

摘要：在上一篇文章中介绍了下载器中间件的一些简单应用，现在再来通过案例说说如何使用下载器中间件集成Selenium、重试和处理请求异常。在中间件中集成Selenium 对于一些很麻烦的异步加载页面，手动寻找它的后台API代价可能太大。这种情况下可以使用Selenium和ChromeDriver或者Sel 阅读全文

posted @ 2020-06-12 13:10 lincappu 阅读(467) 评论(0) 推荐(0) 编辑

2020年6月10日

Scrapy爬虫入门教程一安装和基本使用

摘要：开发环境： Python 3.6.0 版本（当前最新） Scrapy 1.3.2 版本（当前最新） [toc] Scrapy安装 Scrapy在Python 2.7和Python 3.3或更高版本上运行（除了在Windows 3上不支持Python 3）。通用方式：可以从pip安装Scrapy 阅读全文

posted @ 2020-06-10 15:41 lincappu 阅读(452) 评论(0) 推荐(0) 编辑

python sys模块详解

摘要： Python sys 模块详解 1. 简介 “sys”即“system”，“系统”之意。该模块提供了一些接口，用于访问 Python 解释器自身使用和维护的变量，同时模块中还提供了一部分函数，可以与解释器进行比较深度的交互。 2. 常用功能 2.1 sys.argv “argv”即“argument 阅读全文

posted @ 2020-06-10 10:53 lincappu 阅读(1137) 评论(0) 推荐(0) 编辑

2020年5月29日

网络爬虫(CrawlSpider)

摘要：阅读目录一、CrawlSpider简介二、CrawlSpider使用三、CrawlSpider的相关参数四、CrawlSpider整体爬取流程：五、项目实战(CrawlSpider爬取东莞阳光网) 一、CrawlSpider简介 CrawlSpider其实是Spider的一个子类，除了继承阅读全文

posted @ 2020-05-29 16:13 lincappu 阅读(791) 评论(0) 推荐(0) 编辑

2020年5月18日

python3 获取cookie

摘要：方案一：利用selenium+phantomjs无界面浏览器的形式访问网站，再获取cookie值： from selenium import webdriver driver=webdriver.PhantomJS() url="https://et.xiamenair.com/xiamenair 阅读全文

posted @ 2020-05-18 16:35 lincappu 阅读(1366) 评论(0) 推荐(0) 编辑

2020年5月14日

python collections.deque双边队列

摘要：队列是一种只允许在一端进行插入操作，而在另一端进行删除操作的线性表。在Python文档中搜索队列（queue）会发现，Python标准库中包含了四种队列，分别是queue.Queue / asyncio.Queue / multiprocessing.Queue / collections.deq 阅读全文

posted @ 2020-05-14 19:03 lincappu 阅读(9237) 评论(0) 推荐(1) 编辑

Python queue模块详解

摘要： queue 模块即队列，特别适合处理信息在多个线程间安全交换的多线程程序中。下面我们对 queue 模块进行一个详细的使用介绍。 1 queue 模块定义的类和异常 queue 模块定义了以下四种不同类型的队列，它们之间的区别在于数据入队列之后出队列的顺序不同。 1.1 queue.Queue(ma 阅读全文

posted @ 2020-05-14 19:02 lincappu 阅读(28161) 评论(1) 推荐(3) 编辑

lxml.etree.HTML()，lxml.etree.fromstring()和lxml.etree.tostring()三者的区别与联系

摘要：在学习xpath()的过程中，除了学习xpath的基本语法外，我们最先遇到的往往是文档的格式化问题！因为只有正确格式化之后的文档，才能准确利用xpath寻找其中的关键信息。对于文档格式化的问题，可能不同的人，会遇到不一样的情况，但是基本上只要搞懂了lxml.etree.HTML()，lxml.et 阅读全文

posted @ 2020-05-14 13:53 lincappu 阅读(3125) 评论(0) 推荐(0) 编辑

所爱隔山海，山海不可平

不怕念起就怕觉迟理可顿悟事须渐修

公告

所爱隔山海，山海不可平

不怕念起 就怕觉迟 理可顿悟 事须渐修

公告

不怕念起就怕觉迟理可顿悟事须渐修