摘要:
正则表达式是一个特殊的字符序列,它能帮助用户便捷地检索一个字符串是否与某种模式匹配。在爬虫中我们经常会使用它来抓取到网页源码或接口返回内容中匹配提取我们想要的数据。 Python自1.5增加了re模块,它提供Perl风格的正则表达式模式。re模块使Python语言拥有全部正则表达式的功能。 re模块 阅读全文
摘要:
Python爬虫中,除了urlib()外,还有一个使用的比较多的HTTP请求库——requests。这个库也是常用于HTTP请求模块,它使用Python语言编写,可以方便的对网页进行爬取,是学习Python比较好的HTTP请求模块。 Python3中没有默认安装requests库,在前一篇文章中,已 阅读全文