正则
在写一个采集网页源代码的时候遇到一个问题:
匹配URL,以前发过贴子遇到一位大牛提到了一个正则如下:
(https://|http://)?([\w-]+\.)+[\w-]+(/[\w- ./?%&=]*)?
这样可以匹配到大量的URL,但是在匹配类似http://www.ok.com.This is a URL.****
这样的句子的时候会匹配成http://www.ok.com.This
希望求二个正则表达式。第一个能正常匹配http://www.ok.com,www.ok.net/,ok.com,www.ok.net/这样顶级域名形式的正则。
再求一个能匹配下面含分类的正则。比如:http://www.ok.com/this-is-a-article.html或者http://www.ok.com/******/
自己解决了。使用的是:
(?i)(http://|https://)?(\w+\.){1,3}(com(\.cn)?|cn|net|info|org|us|tk)\b