项目经验之:另一种技术带大家进入采集信息的探讨

在说之前,大家说说一般的采现方法是如何实的呢,

想信大多数面试的人员都想到用正则表达式实现采集

的确这是大众都想到的方法.不能说错,也只能说他的采集效率,及采集到的内容,大多数都需要编写非常复杂的处理逻辑,并且相信大家在大学,以及工作中学习正则表达式都是一件不容易的事.我就觉得正则表达式那规律很难

今天给大家介绍新的一种方法 HTML Agility Pack 自已可以去网站去下载,,这里我就不多说了...

HTML Agility Pack 是由法国的一位软件架构师 Simon Mourier 开发的，并且由 DarthObiwan 以及 Jessynoo 辅助开发出來的一個工具，它可以让分析 HTML 的工作就像分析 XML 一样简单，它也有类似于 System.Xml 命名空间中的 XML DOM 的许多类，除了可以使用层次的方式存取 HTML 以外，它也支持使用 XPath 的方式搜索 HTML，这较以往使用文字对比或是 Regular Expression 的对比方式来得更明确

先来看看 HTML Agility Pack 是如何解释网页无素的例如 www.baidu.com网站如果我想采集新闻网页贴吧知道MP3 这个标题文字