摘要:
string regstr = @"(?i)(?<=<td.*?.*?>)[^<]+(?=</td>)"; //提取td的文字 string regstr = @"<a\s+href=(?<url>.+?)>(?<content>.+?)</a>"; //提取链接的内容 string regstr = @"<td.+?><a\s+href=(?<url>.+?)>(?<content>.+?)</a>& 阅读全文
摘要:
# 1 将 <td ....> 转化为<td># (?i) 表示不区分大小写a = re.compile("(?i)[\<]td.*?[\>]" )s=a.sub("<td>",s)#2 将 </td ....> 转化为</td>a = re.compile("(?i)[\<]td.*?[\>]" )s=a.sub("<td>",s)#3 提取介于<td> 与 </td> 之间的内容# --- ( 阅读全文
摘要:
匹配HTML标签<TAG\b[^> ]*>(.*?)</ TAG> 相匹配的开放和关闭对一个特定的HTML标记。标记之间的任何捕捉到的第一个反向引用 。在正则表达式的问号,使明星懒,以确保它停止之前的第一个结束标记,而不是在最后,像一个贪婪的明星会做。这个正则表达式将无法正确匹配自己一样,<TAG>one<TAG>two</TAG>one</TAG>.<([AZ] [A - Z0 - 9] *)\ B [^>]*>(.*?)</ \ 1> 将匹配的开幕式和闭幕式对任何HTML标记 。一定 阅读全文
摘要:
一、后台抓取代码View Code System.Net.HttpWebRequest request = (System.Net.HttpWebRequest)System.Net.WebRequest.Create(url); request.UserAgent = "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET CLR 2.0.50727; .NET CLR 3.0.04506.648; .NET CLR 3.5.21022)"; System.Net.WebResponse 阅读全文