Python爬虫之BeautifulSoup的用法
之前看静觅博客,关于BeautifulSoup的用法不太熟练,所以趁机在网上搜索相关的视频,其中一个讲的还是挺清楚的:python爬虫小白入门之BeautifulSoup库,有空做了一下笔记:
一、爬虫前的基本准备
1. 如何安装BeautifulSoup?
pip install beautifulsoup4 或 easy_install beautifulsoup4
注意:python2用BS4,但python3可以考虑用BS3,BS4对python3支持不够好
2. 如何查看BeautifulSoup已经安装?
打开IDE,用from bs4 import BeautifulSoup不报错 或 在cmd中输入pip list查看pip已安装的第三方库
3. 爬虫模块了解多少?
爬虫模块:urllib、urllib2、Requests、BeautifulSoup、Scrapy、lxml等
二、BeautifulSoup基础知识
1. 如何获取自定义html标签的内容?
数据:<div>,<title>,<a>...标签
找到标签的内容:soup.div(标签的名字)
2. 如何获取本地html文件的内容?
打开本地的html文件:open
打印本地文件的内容:soup.prettify()
3. html源代码相同的标签有很多,怎么获取到我想要的那一部分内容?
网页:名字,class,id
find(name,attrs,recursive,text,**wargs):这些参数相当于过滤器一样进行筛选处理
name:基于标签的名字
attrs:基于标签的属性
recursive:基于是否使用递归查找
text:基于文本参数
**wargs:基于函数的查找
4. 区分点:find find_all
可知:find_all()返回的是一个列表,可以遍历html文件中包含某一元素的所有字串,而find()只会找到第一个。
find_all()能够限制返回结果的数量,如soup.find_all('a', limit = 2),当limit = 1时,find()与find_all()结果相同。
5. 如何对付反爬虫?
增加头部信息headers。urllib2.Request()有三个参数,即urllib2(url, data, headers),如何我们爬取网页时得不到响应,有可能是网站建立了反爬虫机制,我们需要增加头部信息,模拟浏览器来登录,从而成功获取所需要的数据。
三、实战:爬取豆瓣妹子的图片
__EOF__

本文链接:https://www.cnblogs.com/my_captain/p/7440843.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角【推荐】一下。您的鼓励是博主的最大动力!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?