2009年11月16日
摘要: 使用 JTidy 协助抽取网页内容Tidy 是 W3C 用来解析网页的一个软件包,可以方便地将 HTML 文档转换为符合 XML 标准的文档,由于 XML 可以方便地使用 XSLT 技术对内容进行抽取,所以使用 Tidy 配合 XSLT 可以方便地将各种网页的内容抽取出来,保存成我们需要的格式。通过 JTidy 可以方便地将标准的 HTML 网页转换为 XML 的 DOM 对象,然后,通过 XPaht 和 XSLT 将需要的内容抽取出来。使用 JTidy 抽取网页内容的代码如下:package com.tsinghua;import java.io.File;import java.io.Fi 阅读全文
posted @ 2009-11-16 14:43 tankzhouqiang 阅读(196) 评论(0) 推荐(0) 编辑