2012年2月4日

Auto_Parser

摘要: 使用HtmlParser编写的抽取程序的缺点:1.用Htmlparser写的程序很难去维护。2.能否将要抽取的信息的定义和htmlparser程序分离?3.用简单的办法解决问题。抽取规则XML文件的编写规范一.基础Html文档由一系列的标签节点组成,这些节点使用树形结构组织,每一个标签节点由TagName,Attributes,以及ChildTags组成,我们要抽取一个信息总是要先对应到一个具体的标签节点上,然后再对这个标签节点进行操作从而获取要的信息,所要的信息可能是这个标签的某个属性,或者这个标签在界面上输出的字符串(忽略格式),或者是这个标签的Html等等,因此在抽取之前首先要定位到信息 阅读全文

posted @ 2012-02-04 22:12 zhou518zhou 阅读(1259) 评论(0) 推荐(0) 编辑

导航