Java读取XML文档

使用DOM解析XML文档时，需要读入整个XML文档，然后在内存中创建DOM树，生成DOM树上的每个节点对象。只有在整个DOM树创建完毕后，我们才能做其他的操作，即使我们只需要修改根元素节点的第二个子节点，仍然需要在进行这个小小的修改之间分析整个文档，在内存中构建文档树。当XML文档比较大时，构建DOM树将花费大量的时间和内存。一种替代的技术就是使用SAX，SAX允许你在读取文档的时候，即对它进行处理，解析完毕处理也就完成了，不必等待整个文档被分析存储之后才进行操作。

三步过程

为了使用 XML 文件中的信息，必须解析文件以创建一个 Document 对象。
Document 对象是一个接口(??为了统一吗 )，因而不能直接将它实例化；一般情况下，应用程序会相应使用一个工厂。准确的过程因实现而异，但是基本思想是相同的。（同样，Level 3 标准化了这个任务。）在这个例子 Java 环境中，解析文件是一个三步过程：
1.创建 DocumentBuilderFactory。 DocumentBuilderFactory 对象创建 DocumentBuilder。
2.创建 DocumentBuilder。 DocumentBuilder 执行实际的解析以创建 Document 对象。
3.解析文件以创建 Document 对象。
现在您可以开始构建应用程序了。
基本的应用程序
首先创建一个基本的应用程序，即一个名为 OrderProcessor 的类。

第一步是生成一个DocumentBuilderFactory对象，newInstance()是静态方法，所以可以直接类名点调用。
第二步是用工厂生成一个DocumentBuilder对象，但是newDocumentBuilder()是抽象方法，还没实现，在这里就可以调用了吗？还是像你以前说的，只要能产生一个抽象类的对象，那么这个抽象类的所以抽象方法就都已经实现了？是这样吗

newDocumentBuilder()抽象方法肯定会被非抽象子类实现，这就发生了多态，执行时调用子类的重写后的方法

public class DocumentBuilderFactoryImpl extends DocumentBuilderFactory {
......................
}
sun的newInstance()方法
    public static DocumentBuilderFactory newInstance() {
        try {
            return (DocumentBuilderFactory) FactoryFinder.find(
                /* The default property name according to the JAXP spec */
                "javax.xml.parsers.DocumentBuilderFactory",
                /* The fallback implementation class name */
                "com.sun.org.apache.xerces.internal.jaxp.DocumentBuilderFactoryImpl");
        } catch (FactoryFinder.ConfigurationError e) {
            throw new FactoryConfigurationError(e.getException(),
                                                e.getMessage());
        }

    }
它应该是用反射返回了一个DocumentBuilderFactoryImpl的实例，然后用DocumentBuilderFactory强转，也就是：DocumentBuilderFactory.newInstance()返回一个Object类型的 DocumentBuilderFactory实例，下面的就不用说了吧！

import javax.xml.parsers.DocumentBuilder;
import javax.xml.parsers.DocumentBuilderFactory;
import java.io.File;
import org.w3c.dom.Document;

public class OrderProcessor {
public static void main (String args[]) {
File docFile = new File("orders.xml");
Document doc = null;
try {

DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();
DocumentBuilder db = dbf.newDocumentBuilder();
doc = db.parse(docFile);

} catch (Exception e) {
System.out.print("Problem parsing the file: "+e.getMessage());
}
}
}
首先，Java 代码导入必要的类，然后它创建 OrderProcessor 应用程序。本教程中的例子仅处理一个文件，因此为简洁起见，应用程序包含了对该文件的直接引用。
因此 Document 对象可以在以后使用，应用程序把它定义在 try-catch 块之外。
在 try-catch 块中，应用程序创建了 DocumentBuilderFactory，然后再使用它来创建 DocumentBuilder。最后，DocumentBuilder 解析文件以创建 Document。
解析器设置
使用 DocumentBuilder 创建解析器的优点之一在于能够控制 DocumentBuilderFactory 创建的解析器上的各种设置。例如，可以设置解析器验证文档：
try {
DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance();

dbf.setValidating(true);

DocumentBuilder db = dbf.newDocumentBuilder();
doc = db.parse(docFile);
} catch (Exception e) {
...
Java 的 DOM Level 2 实现允许通过以下方法控制解析器的参数：
setCoalescing()：决定解析器是否要将 CDATA 节点转换为文本，以及是否要和周围的文本节点合并（如果适用的话）。其默认值为 false。
setExpandEntityReferences()：确定是否要展开外部实体引用。如果为 true，外部数据将插入文档。其默认值为 true。（请参阅参考资料以了解关于使用外部实体的技巧。）
setIgnoringComments()：确定是否要忽略文件中的注释。其默认值为 false。
setIgnoringElementContentWhitespace()：确定是否要忽略元素内容中的空白（类似于浏览器对待 HTML 的方式）。其默认值为 false。
setNamespaceAware()：确定解析器是否要注意名称空间信息。其默认值为 false。
setValidating()：默认情况下，解析器不验证文档。将这个参数设置为 true 可打开验证功能。

W3C   DOM

文档对象模型(DOM)是与平台和语言无关的接口，允许程序和脚本动态地访问和更新文档的内容，结构和样式。文档可以进一步处理，处理的结果可以放回到所提供的页面中。

表3-1   用于处理XML文档的DOM元素属性

属性名

描述

childNodes

返回当前元素所有子元素的数组

firstChild

返回当前元素的第一个下级子元素

lastChild

返回当前元素的最后一个子元素

nextSibling

返回紧跟在当前元素后面的元素

nodeValue

指定表示元素值的读/写属性

parentNode

返回元素的父节点

previousSibling

返回紧邻当前元素之前的元素

表3-2    用于遍历XML文档的DOM元素方法

方法名

描述

getElementById(id) (document)

获取有指定唯一ID属性值文档中的元素

getElementsByTagName(name)

返回当前元素中有指定标记名的子元素的数组

hasChildNodes()

返回一个布尔值，指示元素是否有子元素

getAttribute(name)

返回元素的属性值，属性由name指定

表3-3    动态创建内容时所用的W3C DOM属性和方法

属性/方法

描述

document.createElement(tagName)

文档对象上的createElement方法可以创建由tagName指定的元素。如果以串div作为方法参数，就会生成一个div元素

Document.createTextNode(text)

文档对象的createTextNode方法会创建一个包含静态文本的节点

<element>.appendChild(childNode)

appendChild方法将指定的节点增加到当前元素的子节点列表。例如，可以增加一个option元素，作为select元素的子节点。

<element>.getAttribute(name)

这些方法分别获得和设置元素中name属性的值

<element>.setAttribute(name,value)

<element>.insertBefore(newNode,targetNode)

这个方法将节点newNode作为当前元素的子节点插到targetNode元素前面

<element>.removeAttribute(name)

这个方法从元素中删除属性name

<element>.removeChild(childNode)

这个方法从元素中删除子childNode

<element>.replaceChild(newNode,oldNode)

这个方法将节点oldNode替换为节点newNode

<element>.hasChildNodes()

这个方法返回一个布尔值，指示元素是否有子元素

Java和XML是黄金组合，网上已经有很多文章介绍，XML作为电子商务中数据交换，已经有其不可替代的作用，但是在平时系统开发中，我们不一定都用到数据交换，是不是无法使用XML了？
当然不是，现在已经有一个新趋势，Java程序的配置文件都开始使用XML格式，以前是使用类似windows的INI格式。（Java中也有 Propertiesy这样的类专门处理这样的属性配置文件）。使用XML作为Java的配置文件有很多好处，从Tomcat的安装配置文件和J2ee的配置文件中，我们已经看到XML的普遍应用，让我们也跟随流行趋势用XML武装起来。
现在关键是如何读取XML配置文件？有好几种XML解析器：主要有DOM和SAX ，这些区别网上文章介绍很多。
在apache的XML项目组中，目前有Xerces Xalan Cocoon几个开发XML相关技术的project.Tomcat本身使用的是 Sun 的 JAXP，而其XSL Taglib project中使用Xerces解析器。
好了，上面都是比较烦人的理论问题，还是赶快切入XML的配置文件的读取吧。
在我们的程序中，通常要有一些根据主机环境确定的变量。比如数据库访问用户名和密码，不同的主机可能设置不一样。只要更改XML配置文件，就可以正常运行。 localhost
sqlname
username
password

上面这个myenv.xml配置文件一般是放在tomcat的WEB-INF/classes目录下。
我们编制一个Java程序直接读取,将dbhost dbuser dbpassword提取出来供其他程序访问数据库用。
目前使用SAX比较的多,与DOM主要区别是 SAX是一行一行读取XML文件进行分析,适合比较大文件,DOM是一次性读入内存,显然不能对付大文件.这里我们使用SAX解析,由于SAX解析器不断在发展,网上有不少文章是针对老版本的.如果你使用JDK1.4 ,可以参考使用SAX处理XML文档一文.这里的程序是根据其改进并且经过实践调试得来的.。

import org.xml.sax.Attributes;

import org.xml.sax.helpers.DefaultHandler;

import org.xml.sax.SAXException;

import java.util.Properties;
//使用DefaultHandler的好处是不必陈列出所有方法,
public class ConfigParser extends DefaultHandler {
////定义一个Properties 用来存放 dbhost dbuser dbpassword的值
private Properties props;
private String currentSet;
private String currentName;
private StringBuffer currentValue = new StringBuffer();
//构建器初始化props
public ConfigParser() {
this.props = new Properties();
}
public Properties getProps() {
return this.props;
}
//定义开始解析元素的方法. 这里是将中的名称xxx提取出来.
public void startElement(String uri, String localName, String qName, Attributes attributes)
throws SAXException {
currentValue.delete(0, currentValue.length());
this.currentName =qName;
}
//这里是将之间的值加入到currentValue
public void characters(char[] ch, int start, int length) throws SAXException {
currentValue.append(ch, start, length);
}
//在遇到结束后,将之前的名称和值一一对应保存在props中
public void endElement(String uri, String localName, String qName) throws SAXException {
props.put(qName.toLowerCase(), currentValue.toString().trim());
}
}

上面的这个解析程序比较简单吧? 其实解析XML就是这么简单。
现在我们已经将dbhost dbuser dbpassword的值localhost sqlname username password提取了出来.但是这只是在在解析器内部,我们的程序还不能访问.需要再编制一个程序。import java.util.Properties;
import javax.xml.parsers.SAXParser;
import javax.xml.parsers.SAXParserFactory;
import java.net.URL;
public class ParseXML{
//定义一个Properties 用来存放 dbhost dbuser dbpassword的值
private Properties props;
//这里的props
public Properties getProps() {
return this.props;
}
public void parse(String filename) throws Exception {
//将我们的解析器对象化
ConfigParser handler = new ConfigParser();
//获取SAX工厂对象
SAXParserFactory factory = SAXParserFactory.newInstance();
factory.setNamespaceAware(false);
factory.setValidating(false);
//获取SAX解析
SAXParser parser = factory.newSAXParser();
//得到配置文件myenv.xml所在目录. tomcat中是在WEB-INF/classes
//下例中BeansConstants是用来存放xml文件中配置信息的类,可以自己代替或定义
URL confURL = BeansConstants.class.getClassLoader().getResource(filename);
try
{
//将解析器和解析对象myenv.xml联系起来,开始解析
parser.parse(confURL.toString(), handler);
//获取解析成功后的属性以后我们其他应用程序只要调用本程序的props就可以提取出属性名称和值了
props = handler.getProps();
}finally{
factory=null;
parser=null;
handler=null;
}
}
}

posted @ 2010-12-27 17:21 留心_frankliujava 阅读(3964) 评论(0) 收藏举报

刷新页面返回顶部

烽火编程

Java读取XML文档

公告