随笔分类 - python爬虫学习之路
写爬虫遇到的常见异常
摘要:BeautifulSoup是一个可以从 HTML 或 XML 文件中提取数据的 Python 库 那需要怎么使用呢? 首先我们要安装一下这个库 1.pip install beautifulsoup4 2.pip install lxml 随便来一段html代码 html_doc = """ <ht
阅读全文
摘要:进行一些 Http 的请求了,那么请求完之后,服务器返回给我们一堆源代码,我们可不是啥都要的啊,我们是有原则的 在服务器返回给我们的源码之中,我们需要过滤,过滤则需要学会使用正则表达式,通过他过滤出我们想要的内容 我整理了最常用的的匹配表达式 | 字符 | 描述 | | | | | \d | 代表任
阅读全文
摘要:作为才开始学爬虫的萌新,遇到了一个这样的错,很懵逼 后面到网络到处查看大佬的解决方法,才发现headers的请求头部信息有错误,headers是一个字典,不是字符串,所以报错了 原代码 headers={ #假装自己是浏览器 'User-Agent: Mozilla/5.0 (Windows NT
阅读全文