四种方法:

第一种:正则表达式,写法比较灵活(过于灵活导致写法很多);

第二种:xpath(推荐使用);

第三种:bs4(BeatifulSoup),使用选择器获取节点对象(不好记);

第四种:jsonpath,类似xpath。

获取节点写法:

1、xpath写法:

比如获取src地址,.../img/@src; 获取h1文本内容://div/h1/text()

2、bs4写法:

获取节点内容:obj.string或obj.get_text()(推荐);

获取节点属性:1)obj.attrs.get('title'); 2)obj.get('title'); 3)obj['title'];

3、selenium访问元素信息:

以class_tag = browser.find_element_by_class_name('content')为例

获取元素属性:class_tag.get_attribute('class')

获取元素文本:class_tag.text