2020 年 5月随笔档案 - lincappu

网络爬虫(CrawlSpider)

摘要：阅读目录一、CrawlSpider简介二、CrawlSpider使用三、CrawlSpider的相关参数四、CrawlSpider整体爬取流程：五、项目实战(CrawlSpider爬取东莞阳光网) 一、CrawlSpider简介 CrawlSpider其实是Spider的一个子类，除了继承阅读全文

posted @ 2020-05-29 16:13 lincappu 阅读(860) 评论(1) 推荐(0) 编辑

python3 获取cookie

摘要：方案一：利用selenium+phantomjs无界面浏览器的形式访问网站，再获取cookie值： from selenium import webdriver driver=webdriver.PhantomJS() url="https://et.xiamenair.com/xiamenair 阅读全文

posted @ 2020-05-18 16:35 lincappu 阅读(1380) 评论(0) 推荐(0) 编辑

python collections.deque双边队列

摘要：队列是一种只允许在一端进行插入操作，而在另一端进行删除操作的线性表。在Python文档中搜索队列（queue）会发现，Python标准库中包含了四种队列，分别是queue.Queue / asyncio.Queue / multiprocessing.Queue / collections.deq 阅读全文

posted @ 2020-05-14 19:03 lincappu 阅读(9303) 评论(0) 推荐(1) 编辑

Python queue模块详解

摘要：queue 模块即队列，特别适合处理信息在多个线程间安全交换的多线程程序中。下面我们对 queue 模块进行一个详细的使用介绍。 1 queue 模块定义的类和异常 queue 模块定义了以下四种不同类型的队列，它们之间的区别在于数据入队列之后出队列的顺序不同。 1.1 queue.Queue(ma 阅读全文

posted @ 2020-05-14 19:02 lincappu 阅读(32904) 评论(1) 推荐(3) 编辑

lxml.etree.HTML()，lxml.etree.fromstring()和lxml.etree.tostring()三者的区别与联系

摘要：在学习xpath()的过程中，除了学习xpath的基本语法外，我们最先遇到的往往是文档的格式化问题！因为只有正确格式化之后的文档，才能准确利用xpath寻找其中的关键信息。对于文档格式化的问题，可能不同的人，会遇到不一样的情况，但是基本上只要搞懂了lxml.etree.HTML()，lxml.et 阅读全文

posted @ 2020-05-14 13:53 lincappu 阅读(3324) 评论(0) 推荐(0) 编辑

BeautifulSoup总结

摘要：1. 参考 Beautiful Soup 4.2.0 文档 Beautiful Soup Documentation （4.4.0 英文部分内容有别于4.2.0中文） CSS 选择器参考手册阮一峰 CSS选择器笔记 2. 安装 pip install beautifulsoup4pip insta 阅读全文

posted @ 2020-05-13 17:33 lincappu 阅读(417) 评论(0) 推荐(0) 编辑

urllib库添加headers的一般方法

摘要：对于请求一些网站，我们需要加上请求头才可以完成网页的抓取，不然会得到一些错误，无法返回抓取的网页。下面，介绍两种添加请求头的方法。方法一：借助build_opener和addheaders完成 1 import urllib.request 2 url="http://www.meizitu.co 阅读全文

posted @ 2020-05-13 17:07 lincappu 阅读(4507) 评论(0) 推荐(0) 编辑

Python之re模块

摘要：一、正则表达式 re模块是python独有的匹配字符串的模块，该模块中提供的很多功能是基于正则表达式实现的，而正则表达式是对字符串进行模糊匹配，提取自己需要的字符串部分，他对所有的语言都通用。注意： re模块是python独有的正则表达式所有编程语言都可以使用 re模块、正则表达式是对字符串进行操阅读全文

posted @ 2020-05-09 14:02 lincappu 阅读(472) 评论(0) 推荐(0) 编辑

所爱隔山海，山海不可平

不怕念起就怕觉迟理可顿悟事须渐修

05 2020 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论