2011 年 6月 23 日随笔档案 - cestarme

HtmlAgilityPack 加载中文页面时出现在乱码的最终解决方案

摘要：前几天我在博客园转载了一篇"net HtmlParser初步使用研究"的文章，之后看过文章评论才知道原来现在已经有HtmlAgilityPack这个类库可以更方便地对HTML内容进行分析和提取。因此今天特别学习和实践了一下HtmlAgilityPack和XPath，并作下笔记。HtmlAgilityPack是用C#写的开源Html Parser。不过可能在某些方面设计不尽完善，或者是对中文的支持并不是很好，例如，抓取中文页面时就出现乱码．我的代码如下：HtmlWebhw=newHtmlWeb();HtmlDocumentdoc=hw.Load("http://ww 阅读全文

posted @ 2011-06-23 18:34 cestarme 阅读(4536) 评论(9) 推荐(2) 编辑

.net HtmlParser初步使用研究

摘要：这两天准备做一些网站编程的工作，于是对HtmlParse小研究了一下，目的是快速入手，而不是深入研究，做了一下整理，和大家共同讨论一下。一，数据组织分析：HtmlParser主要靠Node、AbstractNode和Tag来表达Html，因为Remark和Text相对简单，此处就将其忽略了。Node是形成树结构表示HTML的基础，所有的数据表示都是接口Node的实现，Node定义了与页面树结构所表达的页面Page对象，定义了获取父、子、兄弟节点的方法，定义了节点到对应html文本的方法，定义了该节点对应的起止位置，定义了过滤方法，定义了Visitor访问机制。AbstractNode是Nod 阅读全文

posted @ 2011-06-23 13:46 cestarme 阅读(629) 评论(0) 推荐(0) 编辑

cestarme

HtmlAgilityPack 加载中文页面时出现在乱码的最终解决方案

.net HtmlParser初步使用研究

导航

公告

统计

搜索

常用链接

我的标签

随笔分类 (8)

随笔档案 (28)

文章档案 (1)

阅读排行榜

评论排行榜

推荐排行榜

最新评论