python 之 BeautifulSoup 常用提取
一、bs4信息提取后返回的数据类型
soup.find('tbody') ---> 返回结构是一个bs4.element.Tag soup.find('tbody').children ---> 返回结果是一个 list.iter
二、 常用查找之soup.find_all(), soup.find_all().children,soup.find()信息提取
举例标签:
<tbody> <tr> <td>1<td> <td>清华大学<td> <td>北京市<td> <td>98.00<td> <td>100.00<td> <td>-1<td> <tr> </tbody>
(1)查找html中所有'tbody'标签;
>>>> soup.find_all('tbody')
(2)查找html中tbody标签的所有<tr>子标签,是所有的<tr>。
>>>> soup.find('tbody').children
(3)查找html文档中第一个tbody标签
>>>> soup.find('tbody')
三、 常用查找之"名称"、"属性"、"字符串"信息提取
举例标签:
<img src = 'http://www.abc.com/123.jpg'>
(1) tag.name
>>>> 标签名称提取
(2) tag.get('attrs')
>>>> tag标签中属性内容提取,比如图片链接提取:
>>>> for x in soup.find_all('img'): x.get('src')
(3)tag.string
>>>> tag标签中所有字符串提取。