随笔分类 -  python爬虫学习之路

写爬虫遇到的常见异常
摘要:BeautifulSoup是一个可以从 HTML 或 XML 文件中提取数据的 Python 库 那需要怎么使用呢? 首先我们要安装一下这个库 1.pip install beautifulsoup4 2.pip install lxml 随便来一段html代码 html_doc = """ <ht 阅读全文
posted @ 2021-04-23 19:33 我是一个邓疯子 阅读(306) 评论(0) 推荐(0) 编辑
摘要:进行一些 Http 的请求了,那么请求完之后,服务器返回给我们一堆源代码,我们可不是啥都要的啊,我们是有原则的 在服务器返回给我们的源码之中,我们需要过滤,过滤则需要学会使用正则表达式,通过他过滤出我们想要的内容 我整理了最常用的的匹配表达式 | 字符 | 描述 | | | | | \d | 代表任 阅读全文
posted @ 2021-04-22 20:24 我是一个邓疯子 阅读(109) 评论(0) 推荐(0) 编辑
摘要:作为才开始学爬虫的萌新,遇到了一个这样的错,很懵逼 后面到网络到处查看大佬的解决方法,才发现headers的请求头部信息有错误,headers是一个字典,不是字符串,所以报错了 原代码 headers={ #假装自己是浏览器 'User-Agent: Mozilla/5.0 (Windows NT 阅读全文
posted @ 2021-04-22 19:14 我是一个邓疯子 阅读(7944) 评论(0) 推荐(1) 编辑

ヾ(≧O≦)〃嗷~,

这是回到顶部的路哦

喜欢请打赏

扫描二维码打赏

了解更多

点击右上角即可分享
微信分享提示