python爬虫入门

首先下载爬取网页需要和解析html标签需要的包，并且需要对http协议和html标签有一定了解

pip install requests

pip install beautifulsoup

我们这里以豆瓣电影为例

这里状态码为418表示访问失败，原因是豆瓣网站有保护机制防止爬取，但是我们可以伪装为客服端进行访问

打开开发人员管理器

进行页面刷新，并且随便点击一个请求翻到最底下，把蓝色部分复制

得到运行状态为200表示成功访问

接下来输出该页面的文本

使用beautifulsoup解析页面

例如找寻所有的span标签，并打印出来

前者会连同标签一起打印，后者则只打印文本

我们注意到，电影名被span包含都属于title类，如果我们想要得到电影名可以这样做

然后通过切片或者正则表达式可以得到我们想要的数据

posted @ 2023-05-10 00:17 突破铁皮阅读(11) 评论(0) 编辑收藏举报

刷新页面返回顶部

liyiyang