zwei1121

博客园 首页 新随笔 联系 订阅 管理

1,得到网页上的链接地址:

string matchString = @"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>";


2,得到网页的标题:

string matchString = @"<title>(?<title>.*)</title>";
3,去掉网页中的所有的html标记:

string temp = Regex.Replace(html, "<[^>]*>", ""); //html是一个要去除html标记的文档

java 中去掉网页中的所有标签
str = str.replaceAll("<[^>]*>", "");

4, string matchString = @"<title>([\S\s\t]*?)</title>";

5,js去掉所有html标记的函数:
function delHtmlTag(str)
{
return str.replace(/<\/?.+?>/g,"");//去掉所有的html标记
}
这个可能IE5会错,那用这个,梅花的:
function delHtmlTag(str)
{
return str.replace(/<[^>]+>/g,"");//去掉所有的html标记
}

posted on 2015-02-27 21:17  zwei  阅读(130)  评论(0编辑  收藏  举报