who_care

导航

 

  从html中查找元素,之前一般都用find(),查找符合条件的第一个,如下

f = open(file, 'r')  # 读取文件内容
content = f.read()
soup= BeautifulSoup(content, 'html.parser', from_encoding='utf-8')
f.close()
tr = soup.find('tr', class_='b') # class是关键字,加"_ "

这样就能查到,符合标签为tr,class属性值为b的条件的第一个元素

但是有次遇到一个问题,发现find()对于属性的值不是精确匹配的,是模糊匹配。
如下图:如果用soup.find('tr',class_='bar')实际定位到的是上面的,说明模糊匹配。find_all()也是模糊匹配

 

所以改用select()方法,

soup.select('td[class="bar"]')
#select()方法使用css定位元素,根据td标签和class属性值 精确定位,但是会查询出来所有符合条件的元素,返回一个列表

如上图,如果希望定位到需要“查找的”元素文本值
soup.select('td[class="bar"]')[0].text

posted on 2017-10-24 20:35  who_care  阅读(14146)  评论(0编辑  收藏  举报