四种方法:
第一种:正则表达式,写法比较灵活(过于灵活导致写法很多);
第二种:xpath(推荐使用);
第三种:bs4(BeatifulSoup),使用选择器获取节点对象(不好记);
第四种:jsonpath,类似xpath。
获取节点写法:
1、xpath写法:
比如获取src地址,.../img/@src; 获取h1文本内容://div/h1/text()
2、bs4写法:
获取节点内容:obj.string或obj.get_text()(推荐);
获取节点属性:1)obj.attrs.get('title'); 2)obj.get('title'); 3)obj['title'];
3、selenium访问元素信息:
以class_tag = browser.find_element_by_class_name('content')为例
获取元素属性:class_tag.get_attribute('class')
获取元素文本:class_tag.text