简单的正则表达式

在我的博客中有一篇文章介绍了如何在网页中抓取邮箱,撇开其中的java代码不说,我觉得很有必要介绍

一下正则表达式.那么什么是正则表达式呢.如果读过那篇文章的读者不难发现我们就是依靠这个邮箱的

正则表达式来匹配网页中想要抓取的邮箱.




这个正则表达式是:"\\w+@\\w+(\\.\\w+)+"

\w代表任意的数字字母,即[0-9A-Za-z],而\\w中的第一个‘\’是为了将第二个‘\'’转义.即我们可以理解

为'\\w'=‘\w’ 而后面的'+'代表一个或者多个[0-9A-Za-z],而'@'是代表与一个'@'字符进行匹配,后面

又出现'\\w'同意的代表一个或者多个[0-9A-Za-z],而圆括号'()'则代表进行分组,圆括号内代表匹配

个小数点小树点之后又一个或者多个[0-9A-Za-z],而圆括号后面的‘+’号则匹配一个或者多个圆括号内匹配的内容.




邮箱的标准格式:用户名@邮箱服务器域名。如:abc@def.com


 

举例‘@’之前的\\w可以代表1507026255,也可以代表m21344,又或者4ns4等等。即匹配邮箱的用户名

而'@'之后的'\\w'则是匹配邮箱的服务器域名,可以是QQ邮箱,可以是163邮箱.而又的邮箱如新浪邮箱

的服务器域名可能是adc@sina.com.cn 后面还需要匹配一个小数点和一些字母因此出现了'(\\.\\w)+'此

表达式代表匹配多个.com类似的服务器域名.





好了通过上面对邮箱正则表达式的详细分析,我详细大家都知道正则表达式是个上面东东了,是不是觉得很有用呢.

我给出我的理解吧:正则表达式就是一组匹配规则用于在网页或者文本中搜索匹配符合要求的字符类型.当然正则

表达式并不简单,需要不断的联系和积累.此外正则表达式作为一种标准在各种技术中都有使用,比如java,linux,javascript

虽然他们在语法的细部可能有略微的差别,但是就作为一种标准而言,其很大程度上是通用的.


 

posted @ 2014-07-06 11:29  vpoet  阅读(170)  评论(0编辑  收藏  举报