摘要: 原地址:https://blog.csdn.net/u012106306/article/details/80760744 阅读全文
posted @ 2021-10-16 22:37 陆陆无为而治者 阅读(88) 评论(0) 推荐(0) 编辑
摘要: https://www.cnblogs.com/yuzhongwusan/p/4186405.html 阅读全文
posted @ 2021-10-16 22:37 陆陆无为而治者 阅读(45) 评论(0) 推荐(0) 编辑
摘要: Path是一门在XML文档中查信息的语言,XPath可用来XML文档中对元素和属性进行遍历。XPath是W3C XSLT 标准的主元素,并且XQuery和Xpointer都构建于XPath表达上。XPath在Python的爬虫学习中,起着举足轻重的作用,对比正则表达式re,两者可以完成同样的工作,实 阅读全文
posted @ 2021-10-16 22:32 陆陆无为而治者 阅读(224) 评论(0) 推荐(0) 编辑
摘要: 这里,将使用lxml的文件进行安装,按步骤如下: 下载whl文件,下载地址为https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 。下载对应的版本,例如:这里下载的是lxml-4.6.2-cp36-cp36m-win_amd64。 下载完成之后,放在一个文 阅读全文
posted @ 2021-10-16 21:36 陆陆无为而治者 阅读(354) 评论(0) 推荐(0) 编辑
摘要: 正则表达式是一个特殊的字符序列,它能帮助用户便捷地检索一个字符串是否与某种模式匹配。在爬虫中我们经常会使用它来抓取到网页源码或接口返回内容中匹配提取我们想要的数据。 Python自1.5增加了re模块,它提供Perl风格的正则表达式模式。re模块使Python语言拥有全部正则表达式的功能。 re模块 阅读全文
posted @ 2021-10-16 20:20 陆陆无为而治者 阅读(144) 评论(0) 推荐(0) 编辑
摘要: Python爬虫中,除了urlib()外,还有一个使用的比较多的HTTP请求库——requests。这个库也是常用于HTTP请求模块,它使用Python语言编写,可以方便的对网页进行爬取,是学习Python比较好的HTTP请求模块。 Python3中没有默认安装requests库,在前一篇文章中,已 阅读全文
posted @ 2021-10-16 15:57 陆陆无为而治者 阅读(489) 评论(0) 推荐(0) 编辑