2012 年 2月 4 日随笔档案 - zhou518zhou

2012年2月4日

Auto_Parser

摘要：使用HtmlParser编写的抽取程序的缺点：1.用Htmlparser写的程序很难去维护。2.能否将要抽取的信息的定义和htmlparser程序分离？3.用简单的办法解决问题。抽取规则XML文件的编写规范一．基础Html文档由一系列的标签节点组成，这些节点使用树形结构组织，每一个标签节点由TagName，Attributes，以及ChildTags组成，我们要抽取一个信息总是要先对应到一个具体的标签节点上，然后再对这个标签节点进行操作从而获取要的信息，所要的信息可能是这个标签的某个属性，或者这个标签在界面上输出的字符串（忽略格式），或者是这个标签的Html等等，因此在抽取之前首先要定位到信息阅读全文

posted @ 2012-02-04 22:12 zhou518zhou 阅读(1261) 评论(0) 推荐(0) 编辑

zhou518zhou

Auto_Parser

导航

公告