蜘蛛中可以用到的正则收集

1，得到网页上的链接地址：
      string matchString = @"<a[^>]+href=\s*(?:'(?<href>[^']+)'|""(?<href>[^""]+)""|(?<href>[^>\s]+))\s*[^>]*>";
2，得到网页的标题：
      string matchString = @"<title>(?<title>.*)</title>";
3，去掉网页中的所有的html标记：
      string temp = Regex.Replace(html, "<[^>]*>", "");   //html是一个要去除html标记的文档
4, string matchString = @"<title>([\S\s\t]*?)</title>";

posted on 2008-05-26 17:07 隨風.NET 阅读(304) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

最新评论

1. Re:使用Python去掉试卷上的蓝色和红色笔记
先用扫描全能王拍照,然后需要锐化增强处理,再使用Python
--隨風.NET
2. Re:skywalking 部署到iis上配置
请问做过skywalking监控asp.net项目部署到iis服务器吗
--尚文公
3. Re:Windows 10 自建Anki 私有云服务器

cd /home/jason/ankiserver
 python3 ankisyncctl.py passwd leishen

--隨風.NET
4. Re:解决Cisco AnyConnect VPN客户端的DNS优先级问题
最新发现:断网,然后让cisco自动重连即可
--隨風.NET
5. Re:避免临时表插入重复数据
Alter Database db Set Read_Committed_Snapshot ON
--隨風.NET

隨风.NET

蜘蛛中可以用到的正则收集

导航

公告

统计

搜索

常用链接

最新随笔

我的标签

积分与排名

随笔分类 (66)

随笔档案 (308)

阅读排行榜

评论排行榜

推荐排行榜

最新评论