详细介绍DOM和SAX

XML的DOM解析器
DOM(Document Object Model)是W3C指定的,它不是专门为Java或其他语言而制定的,所以有些地方不大符合Java的风格,如使用NodeList和NameNodeMap而没有使用Java的集合框架类。DOM把XML在内存中生成一个树结构,了解其结构也就基本了解了DOM。基本结构的主要接口为:Node <- Document     <- DocumentType     <- Element     <- Entity     <- CharacterData <- Comment                      <- Text <- CDATA所有接口都是扩展Node的,也就是说树中的任何东西都是Node,所以Node是很重要的接口。通过Node的getNodeType()和getNodeValue()分别可以得到节点的类型和节点的值。 节点类型有:    Node.DOCUMENT_NODE    Node.ELEMENT_NODE    Node.TEXT_NODE    Node.CDATA_SECTION_NODE    Node.PROCESSING_INSTRUCTION_NODE    Node.ENTITY_REFERENCE_NODE    Node.DOCUMENT_TYPE_NODE可以通过以下方式判断switch(node.getNodeType()){    case Node.Document_NODE:    //...    case Node.ELEMENT_NODE:    //...} 开始解析:URI xmlUri=new URI("xml file address");DOMParser parser = new DOMParser();parser.parse(xmlUri);Document doc = parser.getDocument();不同的解析器的构造方式不同,有的解析器会直接返回Document对象,如下:Document doc = parser.parse(xmlUri);Element rootElement = doc.getDocumentElement();NodeList childrenNodes=rootElement.getChildNodes();依次类推就可以遍历所有节点,分别处理每个节点即可。值得注意的是文本也是一个节点Text,但是属性则不是一个节点,可以通过Elemenet.getAttributes()获得。其他的也没什么了,参考一下DOM的JavaDoc就OK了。 ------值得注意的细节------1.性能与内存    DOM解析器会把所有的XML文档全部加载到内存中,如果XML文件非常庞大,那么这样的解析器会耗尽内存,导致内存益处异常;当前,很多解析器已经采用 了延迟加载设计模式(类似于Hibernate的lazy策略),即只有当具体用刀某个节点数据的时候再去加载该节点,不用的就不加载,这种策略节省了内 存的浪费,但是对性能有一定影响。这是有得必有失,需要根据实际情况而定采用什么策略。 2.Node的属性    因为所有节点都是继承Node的,所以任何节点都可以调用getNodeType(),getNodeValue(),getNodeName()之类的 方法,但是并不是这些方法对任何节点都有效,比如说对于Element来说,getNodeValue()就无效,因为Element下的文本是Text 类表示的,而不是一个String。 3.SAXException当使用DOM解析器时,如果出现了SAXException,不用惊讶。

XML的SAX解析器
SAX解析器是通过回调的方式来执行XML的解析工作的。对于基本的解析操作还是比较简单的,就是实现SAX2.0定义的四个核心接口,并注册进解析器即可。具体的操作都在四个接口中的回调方法中。所谓回调,我理解它与.Net中的事件类似。 这四个核心接口是为:org.xml.sax.ContentHanderorg.xml.sax.ErrorHandlerorg.xml.sax.DTDHandlerorg.xml.sax.EntityResolver对应的注册进解析器的方法分别是parser.setContentHandler(ContentHander handler)parser.setErrorHandler(ErrorHandler handler)parser.setDTDHandler(DTDHandler handler)parser.setEntityResolver(EntityResolver handler) 分别看一下这几个核心接口中的回调方法:1. ContentHandler//除setDocumentLocator()外,其他回调方法均抛出SAXException。public interface ContentHandler{/*Locator中有用方法如getLineNumber(),getColumnNumber()等,所以可以考虑把locator作为ContentHandler实现类的实例变量,然后传播到其他回调方法。*/    public void setDocumentLocator(Locator locator);/*startDocument()是开始解析后第一个被调用的方法,endDocument()是最后一个。回调方法没有参数可以使用。*/    public void startDocument();    public void endDocument();/*当解析器到达前缀影射的开头和结尾时,分别回调这两个方法。如ora:copyright,其中ora为前缀(prefix), 整个ora:copyright为URI*/    public void startPrefixMapping(String prefix, String uri);    public void endPrefexMapping(String prefix);/*当解析器到达一个Element和结束时,分别回调这两个方法。关于参数:namespaceURI,localName,qName表示Element名字的各个部分,atts表示该Element的所有属性的引用。*/    public void startElement(String namespaceURI,               String localName, String qName, Attribute atts);    public void endElement(String namespaceURI,               String localName, String qName);/*对于<Book>XML Instroduction<Book>,当解析器解析完文本内容后,回调此方法。一般来说我们可以通过三个参数构造一个String对象来使用。如:String text= new String(ch,start,length)*/    public void characters(char ch[], int start, int length);/*忽略空白后回调此方法*/    public void ignorableWhitespace(char ch[],               int start, int length);/*处理指令*/    public void processingInstruction(String target,String data);/*一般不会用到,因为大部分解析器是不会跳过实体的。暂且不用管它*/    pubilc void skippedEntity(String name);} 2. ErrorHandler/*故名思义,解析过程中分别是出现警告,错误,致命错误时,回调这三个方法。SAXParserException中包含错误信息和行号。*/public interface ErrorHandler{    public void warning(SAXParseException ex) throw SAXException;    public void error(SAXParseException ex) throw SAXException;    public void fatalError(SAXParseException ex) throw SAXException;} 3. DTDHandler基本用不上,不做详细讨论了。public interface DTDHandler{    public void notationDecl(String name, String publicID,                      String systemID) throw SAXException;    pulic void unparserdEntityDecl(String name, String publicID,                      String systemID, String notationName)                      throw SAXException} 4. EntityResolver用于解析实体的,只有一个回调方法。public interface EntityResolver{/*如果返回值是null,解析的执行过程就不会改变。否则将开始执行返回的被引用的内容XML。*/    public InputSource resolveEntity(String publicID,                     String systemID) throw SAXException} 解析编码例子:String parserClass = "org.apache.xerces.parsers.SAXParser";//如果采用的不是Xerces解析器,只需要更改“parserClass”的值即可。XMLReader reader=XMLReaderFactory.createXMLReader(parserClass);//注册ContentHandlerreader.setContentHander(new ContentHandlerImpl());//注册ErrorHandlerreader.setErrorHandler(new ErrorHandlerImpl());//注册DTDHandler //注册EntityResolver //开始解析XMLURI xmlURI = new URI("xml file address");InputSource src = new InputSource(xmlURI);reader.parser(src); ---------几个需要注意的地方---------1.解析器不支持SAX2.0怎么办?采用ParserAdapter辅助类来使SAX1.0解析器像SAX2.0那样工作,唯一缺憾就是不能报告那些被忽略的实体,对大多数应用来说这也不所谓。String parserClass = "org.apache.xerces.parsers.SAXParser";Parser parser=ParserFactory.makeParser(parserClass);ParserAdpter myParser=new ParserAdpter(parser);myParser.setContentHandler(new ContentHandlerImpl());myParser.setErrorHandler(new ErrorHanlderImpl());myParser.parser(xmlUri); 2.XMLReader不能同时解析多个XML一旦XMLReader开始解析一个XML,在解析过程中如果试图再使用阅读器,就会得到SAXException,如果需要同时解析多个XML,只能顺序一个一个解析。或者声明多个XMLReader实例。 3.characters()中的注意public void characters(char[] ch, int start, int length){     //容易出现Bug的使用方法     for(int i=0; i<ch.length; i++){         System.out.pringln(ch[i])     }     //不会出现问题的使用方法     String str= new String(ch,start,length);

posted on 2008-11-14 17:21  dhj  阅读(189)  评论(0编辑  收藏  举报

导航