常用正则收集 自己总结

1、匹配文本中的汉字

   \p{InCJK Unified Ideographs}

2 、常见a连接匹配

  <a\s[^>]*?href\s*=[^\\]\s*['""]?([^'""\s>]*)[^>]*>[\s\S]*?(.*?)[</a>].+? window\.location\.href=['"](.*?)['"];*

3 、常见图片连接匹配

  <img[\s\S]*?src=['"](.*?)['"][\s\S]*?/{0,}> url\((.+?)\) 注释常见匹配 (?<![:,-cl])//.*|/\*[\s\S]*?\*/|(?s)<!--.*?-->

4 、匹配javacript

  <\s*script\s.*type="text/javascript"\s*src="(.*?)"\s*[>].*[</script>].*

posted @ 2013-09-04 22:30  cphmvp  阅读(215)  评论(0编辑  收藏  举报
爬虫在线测试小工具: http://tool.haoshuju.cn/