鉴于崔庆才大大的对于 beautifulsoup 的再理解

源地址

soups  = BeautifulSoup(html)
soup = BeautifulSoup(open('index.html'))

 

print soup.prettify()

 

Tag通俗点讲就是 HTML 中的一个个标签
print (soup.title)
print (soup.head)
print (soup.a)
print (soup.p)
查找的是在所有内容中的第一个符合要求的标签
对于 Tag,它有两个重要的属性,是 name 和 attrs,下面我们分别来感受一下

name
print soup.name
print soup.head.name
#[document]
#head

attrs

print soup.p.attrs
如果我们想要单独获取某个属性,可以这样,例如我们获取它的 class 叫什么
print soup.p['class']
#['title']

还可以这样,利用get方法,传入属性的名称,二者是等价的

 

posted @ 2018-10-21 10:26  星涅爱别离  阅读(205)  评论(0编辑  收藏  举报