蜘蛛中可以用到的正则收集

1,得到网页上的链接地址:
      string matchString = @"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>";
2,得到网页的标题:
      string matchString = @"<title>(?<title>.*)</title>";
3,去掉网页中的所有的html标记:
      string temp = Regex.Replace(html, "<[^>]*>", "");   //html是一个要去除html标记的文档
4, string matchString = @"<title>([\S\s\t]*?)</title>";

posted on   隨風.NET  阅读(302)  评论(0编辑  收藏  举报

努力加载评论中...

导航

点击右上角即可分享
微信分享提示