Day06 DOM4J&schema介绍&xPath

Node appendChild(Node newChild)：把参数节点newChild添加到当前节点的子节点列表的末尾处。返回值为被添加的子节点newChild对象，方便使用链式操作。如果newChild在添加之前已经在文档中存在，那么就是修改节点的位置了；
Node insertBefore(Node newChild, Node refNode)：把参数节点newChild添加到当前节点的子节点refNode之前。返回值为被添加的子节点newChild对象，方便使用链式操作。如果refNode为null，那么本方法与appendNode()方法功能相同。如果newChild节点在添加之前已经在文档中存在，那么就是修改节点的位置了。
Node removeNode(Node oldChild)：从当前节点中移除子元素oldChild。返回值为被添加的子节点oldChild对象，方便使用链式操作。
Node replaceNode(Node newChild, Node oldChild)：将当前节点的子节点oldChild替换为newChild。

Node获取属性集合方法，只有Element可以使用：

NamedNodeMap getAttributes()：返回当前节点的属性集合。NamedNodeMap表示属性的集合，方法如下：
- int getLength()：获取集合中属性的个数；
- Node item(int index)：获取指定下标位置上的属性节点；
- Node getNamedItem(String name)：获取指定名字的属性节点；
- Node removeNamedItem(String name)：移除指定名字的属性节点，返回值为移除的属性节点；
- Node setNamedItem(Node arg)：添加一个属性节点，返回值为添加的属性节点。

Node的判断方法：

boolean hasChildNodes()：判断当前节点是否有子节点；
boolean hasAttribute()：判断当前节点是否有属性。

4　Docment方法介绍

创建节点方法：

Attr createAttribute(String name)：创建属性节点；

CDATASection createCDATASection(String data)：创建CDATA段节点；

Comment createComment(String data)：创建注释；

Element createElement(String tagName)：创建元素节点；

Text createTextNode(String data)：创建文本节点；

获取子元素方法：

Element getElementById(String elementId)：通过元素的ID属性获取元素节点，如果没有DTD指定属性类型为ID，那么这个方法将返回null；

NodeList getElementsByTagName(String tagName)：获取指定元素名称的所有元素；
Element getDocumentElement()：获取文档元素，即获取根元素。

文档声明相关方法：

String getXmlVersion()：获取文档声明的version属性值；
String getXmlEncoding()：获取文档声明的encoding属性值；
String getXmlStandalone()：获取文档声明的standalone属性值；
void setXmlVersion()：设置文档声明version属性值；
void setXmlStandalone()：设置文档声明standalone属性值。

5　Element方法介绍

获取方法：

NodeList getElementsByTagName(String tagName)：获取当前元素的指定元素名称的所有子元素；
String getTagName()：获取当前元素的元素名。调用元素节点的getNodeName()也是返回名；

属性相关方法：

String getAttribute(String name)：获取当前元素指定属性名的属性值；
Attr getAttributeNode(String name)：获取当前元素指定属性名的属性节点；
boolean hasAttribute(String name)：判断当前元素是否有指定属性；
void removeAttribute(String name)：移除当前元素的指定属性；
void removeAttributeNode(Attr attr)：移除当前元素的指定属性；
void setAttribute(String name, String value)：为当前元素添加或修改属性；
Attr setAttributeNode(Attr attr)：为当前元素添加或修改属性，返回值为添加的属性；

6　Attr方法介绍

String getName()：获取当前属性节点的属性名；
String getValue()：获取当前属性节点的属性值；
void setValue(String value)：设置当前属性节点的属性值；
boolean isId()：判断当前属性节点是否为ID类型属性。

SAX

SAX概述

1　SAX解析原理

首先我们想一下，DOM解析器是不是需要把XML文档遍历一次，然后把每次读取到的数据转换成节点对象（到底哪一种节点对象，这要看解析时遇到了什么东西）保存起来，最后生成一个Document对象返回。也就是说，当你调用了builder.parse("a.xml")后，这个方法就会把XML文档中的数据转换成节点对象保存起来，然后生成一个Document对象。这个解析XML文档的过程在parse()方法调用结束后也就结束了。我们的工作是在解析之后，开始对Document对象进行操作。

但是SAX不同，当SAX解析器的parse()方法调用结束后，不会给我们一个Document对象，而是什么都不给。SAX不会把XML数据保存到内存中，如果我们的解析工作是在SAX解析器的parse()方法调用结束后开始，那么就已经晚了！！！这说明我们必须在SAX解析XML文档的同时完成我们的工作。

SAX解析器在解析XML文档的过程中，读取到XML文档的一个部分后，会调用ContentHandler（内部处理器）中的方法。例如当SAX解析到一个元素的开始标签时，它会调用ContentHandler的startElement()方法；在解析到一个元素的结束标签时会调用ContentHandler的endElement()方法。

ContentHandler是一个接口，我们的工作是编写该接口的实现类，然后创建实现类的对象，在SAX解析器开始解析之前，把我们写的内容处理类对象交给SAX解析器，这样在解析过程中，我们的内容处理中的方法就会被调用了。

2　获取SAX解析器

与DOM相同，你应该通过JAXP获取SAX解析器，而不是直接使用特定厂商的SAX解析器。JAXP查找特定厂商的SAX解析器实现的方式与查找DOM解析器实现的方式完全相同，这里就不在赘述了。

SAXParserFactory factory = SAXParserFactory.newInstance();

javax.xml.parsers.SAXParser parser = factory.newSAXParser();

parser.parse("src/students.xml", new MyContentHandler());

　　上面代码中，MyContentHandler就是我们自己需要编写的ContentHandler的实现类对象。

3　内容处理器

org.xml.sax.ContentHandler中的方法：

void setDocumentLocator(Locator locator)：与定位相关，例如获取行数、实体、标识等信息，我们可以忽略他的存在；
void startDocument() throws SAXException：文档开始解析之前被调用；
void endDocument() throws SAXException：文档解析结束之后被调用；
void startPrefixMapping(String prefix,String uri)throws SAXException：与名称空间相关，忽略；
void endPrefixMapping(String prefix) throws SAXException：与名称空间相关，忽略；
void startElement(String uri,String local,String qName,Attributes atts)throws SAXException：开始解析一个元素时被调用，其中uri、local这两个参数与名称空间相关，可以忽略。qName表示当前元素的名称，atts表示当前元素的属性集合；
void endElement(String uri,String localName,String qName)throws SAXException：一个元素解析结束后会被调用；
void characters(char[] ch,int start,int length)throws SAXException：解析到文本数据时会被调用，ch表示当前XML文档所有内容对应的字符数组，不只是当前文本元素的内容。start表示当前文本数据在整个XML文档中的开始下载位置，length是当前文本数据的长度；
void ignorableWhitespace(char[] ch,int start,int length)throws SAXException：解析到空白文本数据时会被调用，可以忽略！
void processingInstruction(String target,String data)throws SAXException：解析到处理指令时会被调用，可以忽略！
void skippedEntity(String name)throws SAXException：解析到实体时会被调用，可以忽略！

　　org.xml.sax.helpers.DefualtHandler对ContentHandler做了空实现，所以我们可以自定义内容处理器时可以继承DefaultHandler类。

SAX应用

测试SAX

public class SAXTest {

@Test

public void testSAX() throws ParserConfigurationException, SAXException, IOException {

SAXParserFactory factory = SAXParserFactory.newInstance();

SAXParser parser = factory.newSAXParser();

parser.parse("src/students.xml", new MyContentHandler());

}

private static class MyContentHandler extends DefaultHandler {

@Override

public void startDocument() throws SAXException {

System.out.println("开始解析...");

}

@Override

public void endDocument() throws SAXException {

System.out.println("解析结束...");

}

@Override

public void startElement(String uri, String localName, String qName,

Attributes atts) throws SAXException {

System.out.println(qName + "元素解析开始");

}

@Override

public void endElement(String uri, String localName, String qName)

throws SAXException {

System.out.println(qName + "元素解析结束");

}

@Override

public void characters(char[] ch, int start, int length)

throws SAXException {

String s = new String(ch, start, length);

if(s.trim().isEmpty()) {

return;

}

System.out.println("文本内容：" + s);

}

@Override

public void ignorableWhitespace(char[] ch, int start, int length)

throws SAXException {

}

@Override

public void processingInstruction(String target, String data)

throws SAXException {

System.out.println("处理指令");

}

2　使用SAX打印XML文档

public class SAXTest2 {

@Test

public void testSAX() throws

ParserConfigurationException, SAXException, IOException {

SAXParserFactory factory = SAXParserFactory.newInstance();

SAXParser parser = factory.newSAXParser();

parser.parse("src/students.xml", new MyContentHandler());

}

private static class MyContentHandler extends DefaultHandler {

@Override

public void startDocument() throws SAXException {

System.out.println("<?xml version='1.0' encoding='utf-8'?>");

}

@Override

public void startElement(String uri, String localName, String qName,

Attributes atts) throws SAXException {

StringBuilder sb = new StringBuilder();

sb.append("<").append(qName);

for(int i = 0; i < atts.getLength(); i++) {

sb.append(" ");

sb.append(atts.getQName(i));

sb.append("=");

sb.append("'");

sb.append(atts.getValue(i));

sb.append("'");

}

sb.append(">");

System.out.print(sb);

}

@Override

public void endElement(String uri, String localName, String qName)

throws SAXException {

System.out.print("</" + qName + ">");

}

@Override

public void characters(char[] ch, int start, int length)

throws SAXException {

System.out.print(new String(ch, start, length));

}

DOM4J

DOM4J概述

1　DOM4J是什么

DOM4J是针对Java开发人员专门提供的XML文档解析规范，它不同与DOM，但与DOM相似。DOM4J针对Java开发人员而设计，所以对于Java开发人员来说，使用DOM4J要比使用DOM更加方便。

DOM4J对DOM和SAX提供了支持，使用DOM4J可以把org.dom4j.document转换成org.w3c.Document，DOM4J也支持基于SAX的事件驱动处理模式。

使用者需要注意，DOM4J解析的结果是org.dom4j.Document，而不是org.w3c.Document。DOM4J与DOM一样，只是一组规范（接口与抽象类组成），底层必须要有DOM4J解析器的实现来支持。

DOM4J使用JAXP来查找SAX解析器，然后把XML文档解析为org.dom4j.Document对象。它还支持使用org.w3c.Document来转换为org.dom4j.Docment对象。

2　DOM4J中的类结构

在DOM4J中，也有Node、Document、Element等接口，结构上与DOM中的接口比较相似。但还是有很多的区别：

在DOM4J中，所有XML组成部分都是一个Node，其中Branch表示可以包含子节点的节点，例如Document和Element都是可以有子节点的，它们都是Branch的子接口。

Attribute是属性节点，CharacterData是文本节点，文本节点有三个子接口，分别是CDATA、Text、Comment。

3　DOM4J获取Document对象

　　使用DOM4J来加载XML文档，需要先获取SAXReader对象，然后通过SAXReader对象的read()方法来加载XML文档：

SAXReader reader = new SAXReader();

// reader.setValidation(true);

Document doc = reader.read("src/students.xml");

4　DOM4J保存Document对象

保存Document对象需要使用XMLWriter对象的write()方法来完成，在创建XMLWriter时还可以为其指定XML文档的格式（缩进字符串以及是否换行），这需要使用OutputFormat来指定。

doc.addDocType("students", "", "students.dtd");

OutputFormat format = new OutputFormat("\t", true);

format.setEncoding("UTF-8");

XMLWriter writer = new XMLWriter(new FileWriter(xmlName), format);

writer.write(doc);

writer.close();

5　DOM4J创建Document对象

　　DocumentHelper类有很多的createXXX()方法，用来创建各种Node对象。

Document doc = DocumentHelper.createDocument();

Document操作 (*****)

1　遍历students.xml

　　涉及的相关方法：

Element getRootElement()：Document的方法，用来获取根元素；
List elements()：Element的方法，用来获取所有子元素；
String attributeValue(String name)：Element的方法，用来获取指定名字的属性值；
Element element(String name)：Element的方法，用来获取第一个指定名字的子元素；
Element elementText(String name)：Element的方法，用来获取第一个指定名字的子元素的文本内容。

分析步骤：

获取Document对象；
获取root元素；
获取root所有子元素
遍历每个student元素；

2　给学生元素添加<score>子元素

涉及的相关方法：

Element addElement(String name)：Element的方法，为当前元素添加指定名字子元素。返回值为新建元素对象；
setText(String text)：Element的方法，为当前元素设置文本内容。

分析步骤：

获取Document对象；
获取root对象；
获取root所有子元素；
遍历所有学生子元素；
- 创建<score>元素，为<score>添加文本内容；
- 把<score>元素添加到学生元素中。
保存Document对象。

3　为张三添加friend属性，指定为李四学号

涉及方法：

addAttribute(String name, String value)：Element的方法，为当前元素添加属性。

分析步骤：

获取Document对象；
获取root对象；
获取root所有子元素；
创建两个Element引用：zhangSanEle、liSiEle，赋值为null；
遍历所有学生子元素；
判断zhangSanEle和liSiEle都不为null时：

4　删除number为ID_1003的学生元素

涉及方法：

boolean remove(Element e)：Element和Document的方法，移除指定子元素；
Element getParent()：获取父元素，根元素的父元素为null。

分析步骤：

获取Document对象；
获取root对象；
获取root所有子元素；
遍历所有学生子元素；
- 判断当前学生元素的number属性是否为ID_1003；
  - 获取当前元素的父元素；
  - 父元素中删除当前元素；
保存Document对象.

5　通过List<Student>生成Document并保存

涉及方法：

DocumentHelper.createDocument()：创建Document对象；
DocumentHelper.createElement(String name)：创建指定名称的Element元素。

分析步骤：

创建Document对象；
为Document添加根元素<students>；
循环遍历学生集合List<Student>；
- 把当前学生对象转换成Element元素；
- 把Element元素添加到根元素中；
保存Document对象。

把学生转换成Element步骤分析：

创建Element对象；
为Element添加number属性，值为学生的number；
为Element添加name子元素，文本内容为学生的name；
为Element添加age子元素，文本内容为学生的age；
为Element添加sex子元素，文本内容为学生的sex。

6　新建赵六学生元素，插入到李四之前

涉及方法：

int indexOf(Node node)：Branch的方法，查找指定节点，在当前Branch的子节点集合中的下标位置。

分析步骤：

创建赵六学生对象；
通过学生对象创建赵六学生元素；
通过名称查找李四元素；
查看李四元素在其父元素中的位置；
获取学生子元素List；
将赵六元素插入到List中。

通过名字查找元素：

获取Document；
获取根元素；
获取所有学生元素；
遍历学生元素；
- 获取学生元素name子元素的文本内容，与指定名称比较；
  - 返回当前学生元素。

7　其它方法介绍

Node方法：

String asXML()：把当前节点转换成字符串，如果当前Node是Document，那么就会把整个XML文档返回；
String getName()：获取当前节点名字；Document的名字就是绑定的XML文档的路径；Element的名字就是元素名称；Attribute的名字就是属性名；
Document getDocument()：返回当前节点所在的Document对象；
short getNodeType()：获取当前节点的类型；
String getNodeTypeName()：获取当前节点的类型名称，例如当前节点是Document的话，那么该方法返回Document；
String getStringValue()：获取当前节点的子孙节点中所有文本内容连接成的字符串；
String getText()：获取当前节点的文本内容。如果当前节点是Text等文本节点，那么本方法返回文本内容；例如当前节点是Element，那么当前节点的内容不是子元素，而是纯文本内容，那么返回文本内容，否则返回空字符串；
void setDocument(Document doc)：给当前节点设置文档元素；
void setParent(Element parent)：给当前节点设置父元素；
void setText(String text)：给当前节点设置文本内容；

Branch方法：

void add(Element e)：添加子元素；
void add(Node node)：添加子节点；
void add(Comment comment)：添加注释；
Element addElement(String eleName)：通过名字添加子元素，返回值为子元素对象；
void clearContent()：清空所有子内容；
List content()：获取所有子内容，与获取所有子元素的区别是，<name>liSi</name>元素没有子元素，但有子内容；
Element elementById(String id)：如果元素有名为"ID"的属性，那么可以使用这个方法来查找；
int indexOf(Node node)：查找子节点在子节点列表中的下标位置；
Node node(int index)：通过下标获取子节点；
int nodeCount()：获取子节点的个数；
Iterator nodeIterator()：获取子节点列表的迭代器对象；
boolean remove(Node node)：移除指定子节点；
boolean remove(Commont commont)：移除指定注释；
boolean remove(Element e)：移除指定子元素；
void setContent(List content) ：设置子节点内容；

Document方法：

Element getRootElement()：获取根元素；
void setRootElement()：设置根元素；
String getXmlEncoding()：获取XML文档的编码；
void setXmlEncoding()：设置XML文档的编码；

Element方法：

void add(Attribute attr)：添加属性节点；
void add(CDATA cdata)：添加CDATA段节点；
void add(Text Text)：添加Text节点；
Element addAttribute(String name, String value)：添加属性，返回值为当前元素本身；
Element addCDATA(String cdata)：添加CDATA段节点；
Element addComment(String comment)：添加属性节点；
Element addText(String text)：添加Text节点；
void appendAttributes(Element e)：把参数元素e的所有属性添加到当前元素中；
Attribute attribute(int index)：获取指定下标位置上的属性对象；
Attribute attribute(String name)：通过指定属性名称获取属性对象；
int attributeCount()：获取属性个数；
Iterator attributeIterator()：获取当前元素属性集合的迭代器；
List attributes()：获取当前元素的属性集合；
String attributeValue(String name)：获取当前元素指定名称的属性值；
Element createCopy()：clone当前元素对象，但不会copy父元素。也就是说新元素没有父元素，但有子元素；
Element element(String name)：获取当前元素第一个名称为name的子元素；
Iterator elementIterator()：获取当前元素的子元素集合的迭代器；
Iterator elementIterator(String name)：获取当前元素中指定名称的子元素集合的迭代器；
List elements()：获取当前元素子元素集合；
List elements(String name)：获取当前元素指定名称的子元素集合；
String elementText(String name)：获取当前元素指定名称的第一个元素文件内容；
String elementTextTrime(String name)：同上，只是去除了无用空白；
boolean isTextOnly()：当前元素是否为纯文本内容元素；
boolean remove(Attribute attr)：移除属性；
boolean remove(CDATA cdata)：移除CDATA；
boolean remove(Text text)：移除Text。

DocumentHelper静态方法介绍：

static Document createDocument()：创建Dcoument对象；
static Element createElement(String name)：创建指定名称的元素对象；
static Attribute createAttrbute(Element owner, String name, String value)：创建属性对象；
static Text createText(String text)：创建属性对象；
- static Document parseText(String text)：通过给定的字符串生成Document对象；

Schema

Schema概述

我们学习Schema的第一目标是：参照Schema的要求可以编写XML文档；

第二目标是：可以自己来定义Schema文档。

1　Schema是什么

XML文档的约束，用来替代DTD。

DTD文档不是XML语法，而Schema本身也是XML文档，这对解析器来说不用再去处理非XML的文档了；

DTD只能表述平台线束，而Schema本身也是XML，所以可以描述结构化的约束信息。

DTD不只约束元素或属性的类型，但Schema可以。例如让age属性的取值在0~100之间。

Schema文档的扩展名为xsd，即XML Schema Definition。

为students.xml编写DTD

<!ELEMENT students (student+)>

<!ELEMENT student (name,age,sex)>

<!ELEMENT name (#PCDATA)>

<!ELEMENT age (#PCDATA)>

<!ELEMENT sex (#PCDATA)>

<!ATTLIST student number CDATA #REQUIRED>

3　为students.xml编写schema

<?xml version="1.0"?>

<xsd:schema xmlns:xsd="http://www.w3.org/2001/XMLSchema">

<xsd:element name="students" type="studentsType"/>

<xsd:complexType name="studentsType">

<xsd:sequence>

<xsd:element name="student" type="studentType" minOccurs="0" maxOccurs="unbounded"/>

</xsd:sequence>

</xsd:complexType>

<xsd:complexType name="studentType">

<xsd:sequence>

<xsd:element name="name" type="xsd:string"/>

<xsd:element name="age">

<xsd:simpleType>

<xsd:restriction base="xsd:integer">

<xsd:maxInclusive value="100"/>

<xsd:minInclusive value="0"/>

</xsd:restriction>

</xsd:simpleType>

</xsd:element>

<xsd:element name="sex">

<xsd:simpleType>

<xsd:restriction base="xsd:string">

<xsd:enumeration value="男"/>

<xsd:enumeration value="女"/>

</xsd:restriction>

</xsd:simpleType>

</xsd:element>

</xsd:sequence>

<xsd:attribute name="number" type="xsd:string"/>

</xsd:complexType>

</xsd:schema>

<?xml version="1.0" encoding="utf-8" standalone="no" ?>
<students xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:noNamespaceSchemaLocation="students.xsd">
    <student number="ID_1001">
        <name>张三</name>
        <age>23</age>
        <sex>男</sex>
    </student>
    <student number="ID_1002">
        <name>李四</name>
        <age>32</age>
        <sex>女</sex>
    </student>
    <student number="ID_1003">
        <name>王五</name>
        <age>50</age>
        <sex>男</sex>
    </student>
</students>