2009 年 11月 16 日随笔档案 - tankzhouqiang

2009年11月16日

摘要：使用 JTidy 协助抽取网页内容Tidy 是 W3C 用来解析网页的一个软件包，可以方便地将 HTML 文档转换为符合 XML 标准的文档，由于 XML 可以方便地使用 XSLT 技术对内容进行抽取，所以使用 Tidy 配合 XSLT 可以方便地将各种网页的内容抽取出来，保存成我们需要的格式。通过 JTidy 可以方便地将标准的 HTML 网页转换为 XML 的 DOM 对象，然后，通过 XPaht 和 XSLT 将需要的内容抽取出来。使用 JTidy 抽取网页内容的代码如下：package com.tsinghua;import java.io.File;import java.io.Fi 阅读全文

posted @ 2009-11-16 14:43 tankzhouqiang 阅读(196) 评论(0) 推荐(0) 编辑