bs4解析原理:
- 数据解析原理:
-1.标签定位
-2.提取标签,标签属性中存储的数据值
- bs4数据解析的原理:
-1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中
-2.通过调用BeautifulSoup对象中相关的属性或者方法,就可以获取页面中需要解析的数据
-环境安装
- pip install bs4
- pip install lxml
-如何实例化BeautifulSoup对象:
- from bs4 import BeautifulSoup
- 对象实例化:
- 1.将本地的html文档中的数据加载到BeautifulSoup实例中
fp = open('./test.html','r',encoding='utf-8')
soup = BeautifulSoup(fp,'lxml')
- 2.将互联网上获取的页面加载到BeautifulSoup实例中
page_text = response.text
soup = BeautifulSoup(page_text,'lxml')
- 提供的用于数据解析的方法和属性:
-soup.tagName :返回的是文档中第一次出现的tagName对应的标签
-soup.find:
-find('标签名') :返回的是符合条件的一个元素对象
-属性定位:
-soup.find('a',class_='title')
-soup.find_all('标签名') :返回的是一个列表,列表中存放了所有符合条件标签对象