Python爬虫-利用BeautifulSoup
可以通过下面链接,到官方文档学习相关信息。
https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
使用BeautifulSoup实现爬虫大体有三个步骤。
1、使用BeautifulSoup构造函数,创建一个解析网页的BeautifulSoup对象。
2、获取网页中的相关信息,并进行保存。
3、循环爬取网站中的网页。(构建一个url管理器)
使用lxml可以非常好的解析大多数的网页内容。