Java读取XML文档

    使用DOM解析XML文档时,需要读入整个XML文档,然后在内存中创建DOM树,生成DOM树上的每个节点对象。只有在整个DOM树创建完毕后,我们才 能做其他的操作,即使我们只需要修改根元素节点的第二个子节点,仍然需要在进行这个小小的修改之间分析整个文档,在内存中构建文档树。当XML文档比较大 时,构建DOM树将花费大量的时间和内存。一种替代的技术就是使用SAX,SAX允许你在读取文档的时候,即对它进行处理,解析完毕处理也就完成了,不必等待整个文档被分析存储之后才进行操作。

三步过程

为了使用 XML 文件中的信息,必须解析文件以创建一个 Document 对象。
Document 对象是一个接口(??为了统一吗 ),因而不能直接将它实例化;一般情况下,应用程序会相应使用一个工厂。准确的过程因实现而异,但是基本思想是相同的。(同样,Level 3 标准化了这个任务。)在这个例子 Java 环境中,解析文件是一个三步过程:
1.创建 DocumentBuilderFactory。 DocumentBuilderFactory 对象创建 DocumentBuilder。
2.创建 DocumentBuilder。 DocumentBuilder 执行实际的解析以创建 Document 对象。
3.解析文件以创建 Document 对象。
现在您可以开始构建应用程序了。
基本的应用程序
首先创建一个基本的应用程序,即一个名为 OrderProcessor 的类。

第一步是生成一个DocumentBuilderFactory对象,newInstance()是静态方法,所以可以直接类名点调用。
第二步是用工厂生成一个DocumentBuilder对象,但是newDocumentBuilder()是抽象方法,还没实现,在这里就可以调用了吗?还是像你以前说的,只要能产生一个抽象类的对象,那么这个抽象类的所以抽象方法就都已经实现了?是这样吗



newDocumentBuilder()抽象方法肯定会被非抽象子类实现,这就发生了多态,执行时调用子类的重写后的方法



public class DocumentBuilderFactoryImpl extends DocumentBuilderFactory {
......................
}
sun的newInstance()方法
    public static DocumentBuilderFactory newInstance() {
        try {
            return (DocumentBuilderFactory) FactoryFinder.find(
                /* The default property name according to the JAXP spec */
                "javax.xml.parsers.DocumentBuilderFactory",
                /* The fallback implementation class name */
                "com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderFactoryImpl");
        } catch (FactoryFinder.ConfigurationError e) {
            throw new FactoryConfigurationError(e.getException(),
                                                e.getMessage());
        }

    }
它应该是用反射返回了一个DocumentBuilderFactoryImpl的实例,然后用DocumentBuilderFactory强 转,也就是:DocumentBuilderFactory.newInstance()返回一个Object类型的 DocumentBuilderFactory实例,下面的就不用说了吧!


import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import java.io.File;
import org.w3c.dom.Document;

public class OrderProcessor {
public static void main (String args[]) {
File docFile = new File("orders.xml");
Document doc = null;
try {

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder db = dbf.newDocumentBuilder();
doc = db.parse(docFile);

} catch (Exception e) {
System.out.print("Problem parsing the file: "+e.getMessage());
}
}
}
首先,Java 代码导入必要的类,然后它创建 OrderProcessor 应用程序。本教程中的例子仅处理一个文件,因此为简洁起见,应用程序包含了对该文件的直接引用。
因此 Document 对象可以在以后使用,应用程序把它定义在 try-catch 块之外。
在 try-catch 块中,应用程序创建了 DocumentBuilderFactory,然后再使用它来创建 DocumentBuilder。 最后,DocumentBuilder 解析文件以创建 Document。
解析器设置
使用 DocumentBuilder 创建解析器的优点之一在于能够控制 DocumentBuilderFactory 创建的解析器上的各种设置。例如,可以设置解析器验证文档:
try {
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();

dbf.setValidating(true);

DocumentBuilder db = dbf.newDocumentBuilder();
doc = db.parse(docFile);
} catch (Exception e) {
...
Java 的 DOM Level 2 实现允许通过以下方法控制解析器的参数:
setCoalescing():决定解析器是否要将 CDATA 节点转换为文本,以及是否要和周围的文本节点合并(如果适用的话)。其默认值为 false。
setExpandEntityReferences(): 确定是否要展开外部实体引用。如果为 true,外部数据将插入文档。其默认值为 true。(请参阅参考资料以了解关于使用外部实体的技巧。)
setIgnoringComments():确定是否要忽略文件中的注释。其默认值为 false。
setIgnoringElementContentWhitespace():确定是否要忽略元素内容中的空白(类似于浏览器对待 HTML 的方式)。其默认值为 false。
setNamespaceAware():确定解析器是否要注意名称空间信息。其默认值为 false。
setValidating():默认情况下,解析器不验证文档。将这个参数设置为 true 可打开验证功能。

W3C   DOM

文档对象模型(DOM)是与平台和语言无关的接口,允许程序和脚本动态地访问和更新文档的内容,结构和样式。文档可以进一步处理,处理的结果可以放回到所提供的页面中。



表3-1   用于处理XML文档的DOM元素属性

属性名


描述

childNodes


返回当前元素所有子元素的数组

firstChild


返回当前元素的第一个下级子元素

lastChild


返回当前元素的最后一个子元素

nextSibling


返回紧跟在当前元素后面的元素

nodeValue


指定表示元素值的读/写属性

parentNode


返回元素的父节点

previousSibling


返回紧邻当前元素之前的元素



表3-2    用于遍历XML文档的DOM元素方法

方法名


描述

getElementById(id)  (document)


获取有指定唯一ID属性值文档中的元素

getElementsByTagName(name)


返回当前元素中有指定标记名的子元素的数组

hasChildNodes()


返回一个布尔值,指示元素是否有子元素

getAttribute(name)


返回元素的属性值,属性由name指定



表3-3    动态创建内容时所用的W3C DOM属性和方法

属性/方法


描述

document.createElement(tagName)


文档对象上的createElement方法可以创建由tagName指定的元素。如果以串div作为方法参数,就会生成一个div元素

Document.createTextNode(text)


文档对象的createTextNode方法会创建一个包含静态文本的节点

<element>.appendChild(childNode)


appendChild方法将指定的节点增加到当前元素的子节点列表。例如,可以增加一个option元素,作为select元素的子节点。

<element>.getAttribute(name)


这些方法分别获得和设置元素中name属性的值

<element>.setAttribute(name,value)

<element>.insertBefore(newNode,targetNode)


这个方法将节点newNode作为当前元素的子节点插到targetNode元素前面

<element>.removeAttribute(name)


这个方法从元素中删除属性name

<element>.removeChild(childNode)


这个方法从元素中删除子childNode

<element>.replaceChild(newNode,oldNode)


这个方法将节点oldNode替换为节点newNode

<element>.hasChildNodes()


这个方法返回一个布尔值,指示元素是否有子元素

Java和XML是黄金组合,网上已经有很多文章介绍,XML作为电子商务中数据交换,已经有其不可替代的作用,但是在平时系统开发中,我们不一定都用到数据交换,是不是无法使用XML了?
当然不是,现在已经有一个新趋势,Java程序的配置文件都开始使用XML格式,以前是使用类似windows的INI格式。(Java中也有 Propertiesy这样的类专门处理这样的属性配置文件)。使用XML作为Java的配置文件有很多好处,从Tomcat的安装配置文件和J2ee的 配置文件中,我们已经看到XML的普遍应用,让我们也跟随流行趋势用XML武装起来。
现在关键是如何读取XML配置文件?有好几种XML解析器:主要有DOM和SAX ,这些区别网上文章介绍很多。
在apache的XML项目组中,目前有Xerces Xalan Cocoon几个开发XML相关技术的project.Tomcat本身使用的是 Sun 的 JAXP,而其XSL Taglib project中使用Xerces解析器。
好了,上面都是比较烦人的理论问题,还是赶快切入XML的配置文件的读取吧。
在我们的程序中,通常要有一些根据主机环境确定的变量。比如数据库访问用户名和密码,不同的主机可能设置不一样。只要更改XML配置文件,就可以正常运行。 localhost
sqlname
username
password

上面这个myenv.xml配置文件一般是放在tomcat的WEB-INF/classes目录下。
我们编制一个Java程序直接读取,将dbhost dbuser dbpassword提取出来供其他程序访问数据库用。
目前使用SAX比较的多,与DOM主要区别是 SAX是一行一行读取XML文件进行分析,适合比较大文件,DOM是一次性读入内存,显然不能对付大文件.这里我们使用SAX解析,由于SAX解析器不断 在发展,网上有不少文章是针对老版本的.如果你使用JDK1.4 ,可以参考使用SAX处理XML文档一文.这里的程序是根据其改进并且经过实践调试得来的.。

import org.xml.sax.Attributes;

import org.xml.sax.helpers.DefaultHandler;

import org.xml.sax.SAXException;

import java.util.Properties;
//使用DefaultHandler的好处 是 不必陈列出所有方法,
public class ConfigParser extends DefaultHandler {
////定义一个Properties 用来存放 dbhost dbuser dbpassword的值
private Properties props;
private String currentSet;
private String currentName;
private StringBuffer currentValue = new StringBuffer();
//构建器初始化props
public ConfigParser() {
this.props = new Properties();
}
public Properties getProps() {
return this.props;
}
//定义开始解析元素的方法. 这里是将 中的名称xxx提取出来.
public void startElement(String uri, String localName, String qName, Attributes attributes)
throws SAXException {
currentValue.delete(0, currentValue.length());
this.currentName =qName;
}
//这里是将 之间的值加入到currentValue
public void characters(char[] ch, int start, int length) throws SAXException {
currentValue.append(ch, start, length);
}
//在遇到 结束后,将之前的名称和值一一对应保存在props中
public void endElement(String uri, String localName, String qName) throws SAXException {
props.put(qName.toLowerCase(), currentValue.toString().trim());
}
}

上面的这个解析程序比较简单吧? 其实解析XML就是这么简单。
现在我们已经将dbhost dbuser dbpassword的值localhost sqlname username password提取了出来.但是这只是在在解析器内部,我们的程序还不能访问.需要再编制一个程序。import java.util.Properties;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import java.net.URL;
public class ParseXML{
//定义一个Properties 用来存放 dbhost dbuser dbpassword的值
private Properties props;
//这里的props
public Properties getProps() {
return this.props;
}
public void parse(String filename) throws Exception {
//将我们的解析器对象化
ConfigParser handler = new ConfigParser();
//获取SAX工厂对象
SAXParserFactory factory = SAXParserFactory.newInstance();
factory.setNamespaceAware(false);
factory.setValidating(false);
//获取SAX解析
SAXParser parser = factory.newSAXParser();
//得到配置文件myenv.xml所在目录. tomcat中是在WEB-INF/classes
//下例中BeansConstants是用来存放xml文件中配置信息的类,可以自己代替或定义
URL confURL = BeansConstants.class.getClassLoader().getResource(filename);
try
{
//将解析器和解析对象myenv.xml联系起来,开始解析
parser.parse(confURL.toString(), handler);
//获取解析成功后的属性 以后 我们其他应用程序只要调用本程序的props就可以提取出属性名称和值了
props = handler.getProps();
}finally{
factory=null;
parser=null;
handler=null;
}
}
}

posted @ 2010-12-27 17:21  留心_frankliujava  阅读(3957)  评论(0编辑  收藏  举报