摘要:BY ZKXP前言:看的我晕头转向的,当觉得结构风格上和DataTable,DataRow那一系列的有点相象。单条记录集合这样的关系。CaptureCollection,MatchCollection,Captures,Group这些东西的关系上,主要是在理解这个Group上。有点似懂非懂。asp.net的正则位于System.Text.RegularExpressions空间下。其主要对象有Ca...
阅读全文
随笔分类 - 正则
摘要:BY ZKXP前言:看的我晕头转向的,当觉得结构风格上和DataTable,DataRow那一系列的有点相象。单条记录集合这样的关系。CaptureCollection,MatchCollection,Captures,Group这些东西的关系上,主要是在理解这个Group上。有点似懂非懂。asp.net的正则位于System.Text.RegularExpressions空间下。其主要对象有Ca...
阅读全文
摘要:有人想把Web Page拉下来并抽取其中的内容。这其实是搜索引擎的一项最最基本的工作:下载,抽取,再下载。我早年做过一个Search Engine项目,不过代码都已经不见了。这次有人又问到我这个事情,我给攒了两个方法。 方法a,在一个winform里面用一个隐藏的browser控件下载web Page,并用IHTMLDo...
阅读全文
摘要:/// /// 去除HTML标记 /// /// 包括HTML的源码 /// 已经去除后的文字 public static string StripHTML(string strHtml) { string [] aryReg ={ @"", ...
阅读全文
摘要:背景 随着Internet的普及,网络信息正以极高的速度增长,在这么多数据中找到自己需要的信息是一件很繁琐的事情,找到需要的信息后如何获取也是件麻烦的事。这就需要Internet信息抓取程序来代替人工的操作。 所谓Internet信息抓取程序,就是程序会按照用户的关键词或关键网站来收集相应的信息,并提供给用户想要的信息格式。 信息量的增加会带来信息网站发布人员工作量的剧增,为实现信息发布系...
阅读全文
摘要:多少年来,许多的编程语言和工具都包含对正则表达式的支持,.NET基础类库中包含有一个名字空间和一系列可以充分发挥规则表达式威力的类,而且它们也都与未来的Perl 5中的规则表达式兼容。 此外,regexp类还能够完成一些其他的功能,例如从右至左的结合模式和表达式的编辑等。 在这篇文章中,我...
阅读全文
|