对服务器端渲染的爬虫方法
数据解析:上一个博客讲的是爬取整个网页的基本技能,但是大多数情况下都不需要爬取整个界面,只是需要其中的一小部分,这就涉及到数据提取的问题。
有三种解析方式:1、re解析(运行速度最快) 2、bs4接续(最简单,执行速度低) 3、xpath解析 三种方法可以混合使用。
正则表达式:一种使用表达式的方法对字符串进行匹配的语法规则,抓取到的网页源码本质上是一个超长的字符串,想从中提取内容,正则表达式最合适。
正则语法:使用元字符进行排列组合用来匹配字符串,在线测试正则表达式:正则表达式在线测试 | 菜鸟工具 (runoob.com)
元字符:具有固定含义的特殊符号
常用元字符:1、.-------------匹配除换行符以外的所有字符
2、\w-----------匹配字母或者数字或者下划线 \W------------匹配非字母或者数字下划线
3、\s------------匹配任意的空白串 \S-------------匹配非空白符
4、\d------------匹配数字 \D--------------匹配非数字
5、\n------------匹配一个换行符
6、^--------------匹配字符串的开始
7、$-------------匹配字符串的结束
8、a|b------------匹配字符a或者字符b
9、()-----------匹配括号内的表达式,也表示一个组
10、[...]--------------匹配字符组中的字符 [^...]--------------匹配除了字符组中的所有字符
11、\t---------------匹配一个制表符
量词:控制前面的元字符出现的次数
1、* 重复零次或者多次
2、+重复一次或者更多次
3、?重复零次或者一次
4、{n}重复n次
5、{n,}重复n次或者更多次
6、{n,m}重复n次到m次
贪婪匹配和惰性匹配(爬虫)
1、。*---------贪婪匹配
2、。*?------惰性匹配
.