Python之爬取网页时遇到的问题——BeautifulSoup

记下两个与本文内容不太相关的知识点。

import re 对正则表达式支持的包。

str(soup.p).decode('utf-8') 对标签内容转码。

Beautiful Soup 是用Python写的一个HTML/XML的解析器，它可以很好的处理不规范标记并生成剖析树。它提供简单又常用的导航，搜索以及修改剖析树的操作。它可以大大节省你的编程时间。

通俗的来说，就是在

req = urllib2.Request(url, headers=headers)
page = urllib2.urlopen(req, timeout=60)
contents = page.read()

之后，对contents进行解析 soup = BeautifulSoup(contents, 'html.parser')，这样构建的是Python标准库，然后我们便可以对这个soup对象进行一系列的操作，提取我们所需要的元素。

我们对用法进行一下解释：

soup.title 得到的是<title>标签，以及标签里的内容。但是得到的是所有<title>标签中的第一个。<title>这里是内容</title>，红字部分。

soup.title.name 得到的是<title>标签的name属性的值。得到的是所有<title>标签中的第一个。

soup.title.string 得到的是<title>开始和结束标签之间的值。<title>这里是内容</title>，即红字部分。得到的是所有<title>标签中的第一个。

soup.find_all('title') 得到所有标签为<title>的的标签，以及标签里的内容。返回的是一个序列，可以对它循环，得到自己想要的东西。

soup.find(id='3') 得到id为3的标签。

soup.p.get_text() 返回的是<p>标签的文本。

soup.a['href'] 返回<a>标签的 herf 值。

soup.head.contents 获得head下的所有子孩子。以列表的形式返回结果，可以使用 [num] 的形式获得。获得标签，使用.name 就可以。

print soup.find_all(text="Elsie") 获得文本为Elsie的标签。

print soup.find_all("a", limit=2) 返回两个<a>标签。

string属性，如果超过一个标签的话，那么就会返回None，否则就返回第一个标签的string。超过一个标签的话，可以试用strings。

获取标签的孩子，可以使用children，但是不能print soup.head.children，没有返回列表，返回的是 <listiterator object at 0x108e6d150>,不过使用list可以将其转化为列表。可以使用for 语句遍历里面的孩子。

向上查找可以用parent函数，如果查找所有的，那么可以使用parents函数。

查找下一个兄弟使用next_sibling，查找上一个兄弟节点使用previous_sibling,如果是查找所有的，那么在对应的函数后面加s就可以。

soup.select()找到的数据，返回为list类型，即，寻找到的是所有符合要求的数据。

soup.select('div') 直接返回所有div标签的所有内容

soup.select('.ebox') . 这个点表示查询class="ebox"的，所有标签内容。

len(soup.select('.ebox')) 可以查询出20条数据。

soup.select('#index_nav') 查找所有id为 index_nav 的标签。

soup.select('div #index_nav') 表示寻找div标签中id为index_nav的标签内容。

soup.select('p[class="etitle"]') 查找所有class为etitle的<p>标签。

http://cuiqingcai.com/1319.html ， http://blog.csdn.net/akak714/article/details/50130743 这两个网址可以学习一下。

posted on 2017-06-15 16:54 勤学才是王道阅读(4694) 评论(0) 编辑收藏举报

刷新页面返回顶部

勤学才是王道