阳光不锈

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: :: :: 管理 ::

随笔分类 -  XML学习笔记

摘要:一、认识VBA 在介绍自定义函数的具体使用之前,不得不先介绍一下VBA,原因很简单,自定义函数就是用它创建的。VBA的全称是Visual Basic for Application,它是微软最好的通用应用程序脚本编程语言,它的特点是容易上手,而且功能非常强大。 在微软所有的Office组件中,如Word、Access、Powerpoint等等都包含VBA,如果你能在一种Office组件中熟练使用... 阅读全文
posted @ 2009-02-11 18:55 靳小透 阅读(360) 评论(0) 推荐(0) 编辑

摘要:首先将源网页用UTF-8重新编码放到一个新的文件, 还要注意加上: tidy.setInputEncoding("UTF-8"); 才能正确显示 源代码如下: import java.net.URL; import java.util.logging.Level; import java.util.logging.Logger; import java.io.*; import org... 阅读全文
posted @ 2009-01-19 12:21 靳小透 阅读(1873) 评论(0) 推荐(0) 编辑

摘要:JTidy转换html到xml 方法一:现无法解决乱码 package spide; import java.io.PrintWriter; import java.io.FileInputStream; import java.io.IOException; import org.w3c.dom.Attr; import org.w3c.dom.Document; import org.w... 阅读全文
posted @ 2009-01-18 20:42 靳小透 阅读(813) 评论(0) 推荐(0) 编辑

摘要:源代码: import java.net.URL; import java.io.*; import org.w3c.tidy.Tidy; public class xml { private String url; private String outFileName; private String errOutFileName; public xml(String url, Strin... 阅读全文
posted @ 2009-01-18 18:34 靳小透 阅读(569) 评论(1) 推荐(1) 编辑

摘要:打开你的项目,右击Libraries,再选 Add JAR/Folder...就可以把你的包加进来了 阅读全文
posted @ 2009-01-16 16:55 靳小透 阅读(354) 评论(0) 推荐(0) 编辑

摘要:这篇技巧文章示范了如何用一种简单的开放源代码工具 HTML Tidy,将 HTML 文档转换成 XML(更确切地说是 XHTML)。这种转换对于要将网站迁移到 XML 上去的网管来说是很有用的。同时那些需要与以前的 HTML 工具交互的 XML 转换工具也能从中获益。 当网管们要将网站从单纯的 HTML 转换到 XML/XSL 上的时候,需要面临的挑战之一就是如何保留原有的 Web 站点。因为如果... 阅读全文
posted @ 2009-01-16 15:44 靳小透 阅读(1457) 评论(0) 推荐(0) 编辑

摘要:Tidy 是 W3C 用来解析网页的一个软件包,可以方便地将 HTML 文档转换为符合 XML 标准的文档,由于 XML 可以方便地使用 XSLT 技术对内容进行抽取,所以使用 Tidy 配合 XSLT 可以方便地将各种网页的内容抽取出来,保存成我们需要的格式。 通过 JTidy 可以方便地将标准的 HTML 网页转换为 XML 的 DOM 对象,然后,通过 XPaht 和 XSLT 将需要的内容... 阅读全文
posted @ 2009-01-16 15:15 靳小透 阅读(556) 评论(0) 推荐(0) 编辑

摘要:最近要从网页中提取信息,想先把html转换成标准的xml格式,然后方便使用dom4j进行后续的分析,试用了不少现成的类库,JTidy、NekoHTML、HTML Parser、Jericho,最后还是使用了JTidy。 只是r8 snapshot还只是一个nightly builds,前面的r7版更已经是4年前的事了,这个项目就这样荒废了?可能是参与的人太少又或者是觉得已经成熟? JTidy提供... 阅读全文
posted @ 2009-01-16 15:12 靳小透 阅读(481) 评论(0) 推荐(0) 编辑

摘要:转自:http://hedong.3322.org/archives/000252.html JTidy是HTML Tidy(一个HTML语法检查器和优雅的打印编排工具)的Java移植,除了本身具有的清除HTML文件难看或错误内容的功能外,还提供了一个DOM接口,程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。 一、下载及编译 jtidy是个sourceforge的开源... 阅读全文
posted @ 2009-01-16 14:05 靳小透 阅读(2146) 评论(0) 推荐(0) 编辑

摘要:来源:互连网 作者:互连网 发布时间:2005-04-01 在 Java 专家 Michael Geisler 为 Builder 澳大利亚写的第一篇文章中,他向读者展示了如何使用 JTidy 将 HTML 文档转换成 XML。 ... 阅读全文
posted @ 2009-01-16 14:00 靳小透 阅读(511) 评论(0) 推荐(0) 编辑