05 2020 档案

摘要:阅读目录 一、CrawlSpider简介 二、CrawlSpider使用 三、CrawlSpider的相关参数 四、CrawlSpider整体爬取流程: 五、项目实战(CrawlSpider爬取东莞阳光网) 一、CrawlSpider简介 CrawlSpider其实是Spider的一个子类,除了继承 阅读全文
posted @ 2020-05-29 16:13 lincappu 阅读(860) 评论(1) 推荐(0) 编辑
摘要:方案一: 利用selenium+phantomjs无界面浏览器的形式访问网站,再获取cookie值: from selenium import webdriver driver=webdriver.PhantomJS() url="https://et.xiamenair.com/xiamenair 阅读全文
posted @ 2020-05-18 16:35 lincappu 阅读(1380) 评论(0) 推荐(0) 编辑
摘要:队列是一种只允许在一端进行插入操作,而在另一端进行删除操作的线性表。 在Python文档中搜索队列(queue)会发现,Python标准库中包含了四种队列,分别是queue.Queue / asyncio.Queue / multiprocessing.Queue / collections.deq 阅读全文
posted @ 2020-05-14 19:03 lincappu 阅读(9303) 评论(0) 推荐(1) 编辑
摘要:queue 模块即队列,特别适合处理信息在多个线程间安全交换的多线程程序中。下面我们对 queue 模块进行一个详细的使用介绍。 1 queue 模块定义的类和异常 queue 模块定义了以下四种不同类型的队列,它们之间的区别在于数据入队列之后出队列的顺序不同。 1.1 queue.Queue(ma 阅读全文
posted @ 2020-05-14 19:02 lincappu 阅读(32904) 评论(1) 推荐(3) 编辑
摘要:在学习xpath()的过程中,除了学习xpath的基本语法外,我们最先遇到的往往是文档的格式化问题!因为只有正确格式化之后的文档,才能准确利用xpath寻找其中的关键信息。 对于文档格式化的问题,可能不同的人,会遇到不一样的情况,但是基本上只要搞懂了lxml.etree.HTML(),lxml.et 阅读全文
posted @ 2020-05-14 13:53 lincappu 阅读(3324) 评论(0) 推荐(0) 编辑
摘要:1. 参考 Beautiful Soup 4.2.0 文档 Beautiful Soup Documentation (4.4.0 英文部分内容有别于4.2.0中文) CSS 选择器参考手册 阮一峰 CSS选择器笔记 2. 安装 pip install beautifulsoup4pip insta 阅读全文
posted @ 2020-05-13 17:33 lincappu 阅读(417) 评论(0) 推荐(0) 编辑
摘要:对于请求一些网站,我们需要加上请求头才可以完成网页的抓取,不然会得到一些错误,无法返回抓取的网页。下面,介绍两种添加请求头的方法。 方法一:借助build_opener和addheaders完成 1 import urllib.request 2 url="http://www.meizitu.co 阅读全文
posted @ 2020-05-13 17:07 lincappu 阅读(4507) 评论(0) 推荐(0) 编辑
摘要:一、正则表达式 re模块是python独有的匹配字符串的模块,该模块中提供的很多功能是基于正则表达式实现的,而正则表达式是对字符串进行模糊匹配,提取自己需要的字符串部分,他对所有的语言都通用。注意: re模块是python独有的 正则表达式所有编程语言都可以使用 re模块、正则表达式是对字符串进行操 阅读全文
posted @ 2020-05-09 14:02 lincappu 阅读(472) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示