正则-匹配超链接地址及内容

今天做文章抓取程序的完善开发,碰到了以下问题
   “<a href=aaa.html>A页</a><a href=bbb.html>B页</b>” 利用正则从中分别取出 aaa.html ,A页 ,bbb.html,B页。
   自己写了俩正则 算是都能实现,但是是先匹配出所有的href对应的Html,再匹配出类似"A页"标题这段。 但是感觉很麻烦,从网上一搜,果然看到有位大侠写的正则很简炼,贴出记下,膜拜之
MatchCollection mc = Regex.Matches(htmlstring, @"<a\s+href=(?<url>.+?)>(?<content>.+?)</a>");
          foreach (Match m in mc)
           {
                url = m.Groups["url"].Value;
               
              content = m.Groups["content"].Value;
         }

posted @ 2011-10-01 16:13  星月磊子  阅读(755)  评论(0编辑  收藏  举报