常用正则收集 自己总结
1、匹配文本中的汉字
\p{InCJK Unified Ideographs}
2 、常见a连接匹配
<a\s[^>]*?href\s*=[^\\]\s*['""]?([^'""\s>]*)[^>]*>[\s\S]*?(.*?)[</a>].+? window\.location\.href=['"](.*?)['"];*
3 、常见图片连接匹配
<img[\s\S]*?src=['"](.*?)['"][\s\S]*?/{0,}> url\((.+?)\) 注释常见匹配 (?<![:,-cl])//.*|/\*[\s\S]*?\*/|(?s)<!--.*?-->
4 、匹配javacript
<\s*script\s.*type="text/javascript"\s*src="(.*?)"\s*[>].*[</script>].*
create by cphmvp
email:cphmvp@163.com
爬虫技术交流_crawler QQ群 :167047843