阳光不锈

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: :: :: 管理 ::

2009年1月16日

摘要: 打开你的项目,右击Libraries,再选 Add JAR/Folder...就可以把你的包加进来了 阅读全文
posted @ 2009-01-16 16:55 靳小透 阅读(354) 评论(0) 推荐(0) 编辑

摘要: 这篇技巧文章示范了如何用一种简单的开放源代码工具 HTML Tidy,将 HTML 文档转换成 XML(更确切地说是 XHTML)。这种转换对于要将网站迁移到 XML 上去的网管来说是很有用的。同时那些需要与以前的 HTML 工具交互的 XML 转换工具也能从中获益。 当网管们要将网站从单纯的 HTML 转换到 XML/XSL 上的时候,需要面临的挑战之一就是如何保留原有的 Web 站点。因为如果... 阅读全文
posted @ 2009-01-16 15:44 靳小透 阅读(1456) 评论(0) 推荐(0) 编辑

摘要: Tidy 是 W3C 用来解析网页的一个软件包,可以方便地将 HTML 文档转换为符合 XML 标准的文档,由于 XML 可以方便地使用 XSLT 技术对内容进行抽取,所以使用 Tidy 配合 XSLT 可以方便地将各种网页的内容抽取出来,保存成我们需要的格式。 通过 JTidy 可以方便地将标准的 HTML 网页转换为 XML 的 DOM 对象,然后,通过 XPaht 和 XSLT 将需要的内容... 阅读全文
posted @ 2009-01-16 15:15 靳小透 阅读(556) 评论(0) 推荐(0) 编辑

摘要: 最近要从网页中提取信息,想先把html转换成标准的xml格式,然后方便使用dom4j进行后续的分析,试用了不少现成的类库,JTidy、NekoHTML、HTML Parser、Jericho,最后还是使用了JTidy。 只是r8 snapshot还只是一个nightly builds,前面的r7版更已经是4年前的事了,这个项目就这样荒废了?可能是参与的人太少又或者是觉得已经成熟? JTidy提供... 阅读全文
posted @ 2009-01-16 15:12 靳小透 阅读(481) 评论(0) 推荐(0) 编辑

摘要: 作者:jini 来源:java 公开原始码报 申明:未经作者同意,谢绝转载 Java 公开原始码报 (Java Opensource Newspaper) 现在已经有简体中文版, 如果习惯阅读简体中文的读者, 可以连结到 sentom.net 去阅读 ! 其他人如果需要转载到其他地方或翻译成为其他语言, 请来信告知 . 基本上只要不是作为营利用途, 我都会允以授权. 因为我希望,... 阅读全文
posted @ 2009-01-16 14:42 靳小透 阅读(463) 评论(0) 推荐(0) 编辑

摘要: 转自:http://hedong.3322.org/archives/000252.html JTidy是HTML Tidy(一个HTML语法检查器和优雅的打印编排工具)的Java移植,除了本身具有的清除HTML文件难看或错误内容的功能外,还提供了一个DOM接口,程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。 一、下载及编译 jtidy是个sourceforge的开源... 阅读全文
posted @ 2009-01-16 14:05 靳小透 阅读(2146) 评论(0) 推荐(0) 编辑

摘要: 来源:互连网 作者:互连网 发布时间:2005-04-01 在 Java 专家 Michael Geisler 为 Builder 澳大利亚写的第一篇文章中,他向读者展示了如何使用 JTidy 将 HTML 文档转换成 XML。 ... 阅读全文
posted @ 2009-01-16 14:00 靳小透 阅读(510) 评论(0) 推荐(0) 编辑