正则

当匹配中的分组有嵌套时,是从外向里匹配的,其次在由左向右匹配
摘抄自http://social.msdn.microsoft.com/Forums/en-US/4305d5d4-1709-4c0f-86ae-3db78d08bced/url

在写一个采集网页源代码的时候遇到一个问题:

匹配URL,以前发过贴子遇到一位大牛提到了一个正则如下:

(https://|http://)?([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?

这样可以匹配到大量的URL,但是在匹配类似http://www.ok.com.This is a URL.****

这样的句子的时候会匹配成http://www.ok.com.This

希望求二个正则表达式。第一个能正常匹配http://www.ok.com,www.ok.net/,ok.com,www.ok.net/这样顶级域名形式的正则。

再求一个能匹配下面含分类的正则。比如:http://www.ok.com/this-is-a-article.html或者http://www.ok.com/******/

posted @ 2014-09-26 14:16  大匠  Views(133)  Comments(0Edit  收藏  举报