对服务器端渲染的爬虫方法

数据解析:上一个博客讲的是爬取整个网页的基本技能,但是大多数情况下都不需要爬取整个界面,只是需要其中的一小部分,这就涉及到数据提取的问题。

有三种解析方式:1、re解析(运行速度最快)    2、bs4接续(最简单,执行速度低)      3、xpath解析   三种方法可以混合使用。

正则表达式:一种使用表达式的方法对字符串进行匹配的语法规则,抓取到的网页源码本质上是一个超长的字符串,想从中提取内容,正则表达式最合适。

正则语法:使用元字符进行排列组合用来匹配字符串,在线测试正则表达式:正则表达式在线测试 | 菜鸟工具 (runoob.com)

元字符:具有固定含义的特殊符号

 

常用元字符:1、.-------------匹配除换行符以外的所有字符

                      2、\w-----------匹配字母或者数字或者下划线     \W------------匹配非字母或者数字下划线

                      3、\s------------匹配任意的空白串                       \S-------------匹配非空白符

                      4、\d------------匹配数字                                     \D--------------匹配非数字

                      5、\n------------匹配一个换行符

                     6、^--------------匹配字符串的开始

                      7、$-------------匹配字符串的结束

                     8、a|b------------匹配字符a或者字符b

                     9、()-----------匹配括号内的表达式,也表示一个组

                     10、[...]--------------匹配字符组中的字符               [^...]--------------匹配除了字符组中的所有字符

                      11、\t---------------匹配一个制表符

                     量词:控制前面的元字符出现的次数

                      1、*     重复零次或者多次

                      2、+重复一次或者更多次

                      3、?重复零次或者一次

                      4、{n}重复n次       

                      5、{n,}重复n次或者更多次

                      6、{n,m}重复n次到m次 

                      贪婪匹配和惰性匹配(爬虫)

                      1、。*---------贪婪匹配

                      2、。*?------惰性匹配 

.

 

posted @ 2021-12-12 19:48  一只代码弱鸡  阅读(357)  评论(0编辑  收藏  举报