摘要:
1. 什么是正则表达式 基本说来,正则表达式是一种用来描述一定数量文本的模式。Regex代表Regular Express。本文将用>来表示一段具体的正则表达式。 一段文本就是最基本的模式,简单的匹配相同的文本。 2. 不同的正则表达式引擎 正则表达式引擎是一种可以处理正则表达式的软件。通常,引擎是更大的应用程序的一部分。在软件世界,不同的正则表达式并不互相兼容。本教程会集... 阅读全文
摘要:
有人想把Web Page拉下来并抽取其中的内容。这其实是搜索引擎的一项最最基本的工作:下载,抽取,再下载。我早年做过一个Search Engine项目,不过代码都已经不见了。这次有人又问到我这个事情,我给攒了两个方法。 方法a,在一个winform里面用一个隐藏的browser控件下载web Page,并用IHTMLDocument来分析内容。这个方法比较简单,但如果对于大量文件的分析速度很慢。 ... 阅读全文
摘要:
/// /// 去除HTML标记 /// /// 包括HTML的源码 /// 已经去除后的文字 public static string StripHTML(string strHtml) { string [] aryReg ={ @"", @"", @"([\r\n])[\s]+", @"&(q... 阅读全文
摘要:
//region 字符串截取函数//首先引入System.Text命名空间 public static string CutString(string inputString,int len) { ASCIIEncoding ascii = new ASCIIEncoding(); int tempLen=0; string temp... 阅读全文
摘要:
//获得链接 public ArrayList GetHyperLinks(string htmlCode) { ArrayList al = new ArrayList(); string strRegex = ""; int startp, endp; ... 阅读全文
摘要:
public string checkStr(string html) { System.Text.RegularExpressions.Regex regex1 = new System.Text.RegularExpressions.Regex(@"标记 html = regex2.Replace(html, ""); //过滤href=javascri... 阅读全文
摘要:
1、DateTime 数字型 System.DateTime currentTime=new System.DateTime(); 1.1 取当前年月日时分秒 currentTime=System.DateTime.Now; 1.2 取当前年 int 年=currentTime.Year; 1.3 取当前月 int 月=currentTime.Month; 1.4 取当前日 int 日=curre... 阅读全文