冠军

导航

2006年2月27日

用于解析 sohu 新闻页面的 XSLT 文件

摘要: 用于解析 sohu 新闻页面的 XSLT 文件 阅读全文

posted @ 2006-02-27 22:18 冠军 阅读(499) 评论(0) 推荐(0) 编辑

用于解析 sina 新闻页面的 XSLT 文件

摘要: 用于解析 sina 新闻页面的 XSLT 文件 阅读全文

posted @ 2006-02-27 22:17 冠军 阅读(541) 评论(0) 推荐(0) 编辑

使用 JTidy 协助抽取网页内容

摘要: Tidy 是 W3C 用来解析网页的一个软件包,可以方便地将 HTML 文档转换为符合 XML 标准的文档,由于 XML 可以方便地使用 XSLT 技术对内容进行抽取,所以使用 Tidy 配合 XSLT 可以方便地将各种网页的内容抽取出来,保存成我们需要的格式。 阅读全文

posted @ 2006-02-27 22:14 冠军 阅读(3601) 评论(4) 推荐(0) 编辑

使用 JTidy 协助抽取网页内容

摘要: Tidy 是 W3C 用来解析网页的一个软件包,可以方便地将 HTML 文档转换为符合 XML 标准的文档,由于 XML 可以方便地使用 XSLT 技术对内容进行抽取,所以使用 Tidy 配合 XSLT 可以方便地将各种网页的内容抽取出来,保存成我们需要的格式。 阅读全文

posted @ 2006-02-27 22:09 冠军 阅读(273) 评论(0) 推荐(0) 编辑