alexmen

专注.net软件开发,项目管理体系PMBOK.

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

2011年8月12日

摘要: string regstr = @"(?i)(?<=<td.*?.*?>)[^<]+(?=</td>)"; //提取td的文字 string regstr = @"<a\s+href=(?<url>.+?)>(?<content>.+?)</a>"; //提取链接的内容 string regstr = @"<td.+?><a\s+href=(?<url>.+?)>(?<content>.+?)</a>& 阅读全文
posted @ 2011-08-12 18:42 alexmen 阅读(7549) 评论(0) 推荐(1) 编辑

摘要: # 1 将 <td ....> 转化为<td># (?i) 表示不区分大小写a = re.compile("(?i)[\<]td.*?[\>]" )s=a.sub("<td>",s)#2 将 </td ....> 转化为</td>a = re.compile("(?i)[\<]td.*?[\>]" )s=a.sub("<td>",s)#3 提取介于<td> 与 </td> 之间的内容# --- ( 阅读全文
posted @ 2011-08-12 17:02 alexmen 阅读(3997) 评论(0) 推荐(0) 编辑

摘要: 匹配HTML标签<TAG\b[^> ]*>(.*?)</ TAG> 相匹配的开放和关闭对一个特定的HTML标记。标记之间的任何捕捉到的第一个反向引用 。在正则表达式的问号,使明星懒,以确保它停止之前的第一个结束标记,而不是在最后,像一个贪婪的明星会做。这个正则表达式将无法正确匹配自己一样,<TAG>one<TAG>two</TAG>one</TAG>.<([AZ] [A - Z0 - 9] *)\ B [^>]*>(.*?)</ \ 1> 将匹配的开幕式和闭幕式对任何HTML标记 。一定 阅读全文
posted @ 2011-08-12 11:15 alexmen 阅读(16244) 评论(0) 推荐(0) 编辑

摘要: 一、后台抓取代码View Code System.Net.HttpWebRequest request = (System.Net.HttpWebRequest)System.Net.WebRequest.Create(url); request.UserAgent = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)"; System.Net.WebResponse 阅读全文
posted @ 2011-08-12 10:47 alexmen 阅读(2434) 评论(0) 推荐(1) 编辑