天下第二博

Tian Xia The Second BO
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

网页采集时,常用的几种正则表达式

Posted on 2008-03-12 10:20  Nuke'Blog  阅读(886)  评论(0编辑  收藏  举报
 
1,得到网页上的链接地址:
      string matchString = @"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>";
2,得到网页的标题:
      string matchString = @"<title>(?<title>.*)</title>";
3,去掉网页中的所有的html标记:
      string temp = Regex.Replace(html, "<[^>]*>", "");   //html是一个要去除html标记的文档
4, string matchString = @"<title>([\S\s\t]*?)</title>";
5,js去掉所有html标记的函数:
      function delHtmlTag(str)
     {
        return str.replace(/<\ .+?>/g,"");//去掉所有的html标记
     }
   这个可能IE5会错,那用这个,梅花的:
    function delHtmlTag(str)
{
   return str.replace(/<[^>]+>/g,"");//去掉所有的html标记
}