(转)用C#读xml文档(流模型)
System.Xml命名空间下,XmlReader和XmlWriter类是用于读写xml文档的抽象类,它们使用流模型
使用XmlReader类读XML文档,它提供对XML数据的快速、非缓存、只向前、只读的访问。
1.XmlReader有3个子类:
1)XmlTextReader:最快的 XmlReader 实现。它检查 XML 格式是否正确,但不支持验证。该读取器不能展开常规实体(dtd中的概念),不支持默认属性。
XmlReader 在发生 XML 分析错误时引发 XmlException 异常。
2)XmlValidatingReader: 可以使用 DTD 或 Schema 验证数据的 XmlReader 的实现。该读取器还可以展开常规实体并支持默认属性。
3)XmlNodeReader: 从 XmlNode 读取 XML 数据的 XmlReader 的实现
注:读xml文档,一般使用XmlTextReader类
===================================================
2.XmlTextReader 类
1)XmlTextReader把xml文档看作是一个序列化的节点集合,即一个节点流
2)xml文档中的 元素的开始标记(节点类型为Element)、元素的属性(Attribute)、元素的文本内容(Text)、标记之间的空白/换行(SignificantWhitespace或Whitespace)、元素的结束标记(EndElement)等 都被视为节点。
3)Read()方法是XmlTextReader类的主要实例方法,它执行一次就读节点流中的一个节点
但Read()方法不会自动读取属性节点(Attribute类型的节点),如果当前节点是Element节点后,下一次被读的节点就是Text(如果当前元素有文本内容)或Whitespace节点(如果当前节点标记预下一个标记之间有空白/换行的话,如果没有空白换行,就没有Whitespace节点)
即Read()方法只会读Element、Text、Whitespace、EndElement等类型的节点
3)如果当前当前节点是Element节点,如果想读元素的属性节点的话,可以使用以下方法:
MoveToAttribute 、MoveToFirstAttribute 、MoveToNextAttribute 等
如果当前节点是Attribute节点,要回到属性所属元素的节点上的话,可使用MoveToElement 方法
4)随着当前节点的节点类型的不同,XmlReader类对象的某些属性也会无效
例如XmlTextReader对象的AttributeCount属性,对于不是Element、DocumentType 和 XmlDeclaration 类型的节点来说,该属性无意义
5)关于SignificantWhitespace/Whitespace节点的处理:
XmlTextReader对象的WhitespaceHandling属性可以指定如何处理空白
3.节点的类型
=====================================================================
节点类型 说明 示例 XML
=====================================================================
Attribute 属性 id='123'
---------------------------------------------------------------------
CDATA CDATA节 <![CDATA[my escaped text]]>
---------------------------------------------------------------------
Comment 注释 <!-- my comment -->
---------------------------------------------------------------------
Document 作为文档树的根的文档对象提供对整个 XML 文档的访问
---------------------------------------------------------------------
DocumentFragment 文档片段
---------------------------------------------------------------------
DocumentType 文档类型声明 <!DOCTYPE ...>
---------------------------------------------------------------------
Element 元素 <item>
---------------------------------------------------------------------
EndElement 结束元素标记 </item>
---------------------------------------------------------------------
EndEntity 由于调用 ResolveEntity 而使 XmlReader 到达实体替换的末尾时返回
---------------------------------------------------------------------
Entity 实体声明 <!ENTITY ...>
---------------------------------------------------------------------
EntityReference 对实体的引用 #
---------------------------------------------------------------------
None 如果未调用 Read 方法,则由 XmlReader 返回
---------------------------------------------------------------------
Notation 文档类型声明中的表示法 <!NOTATION ...>
---------------------------------------------------------------------
ProcessingInstruction 处理指令 <?pi test?>
---------------------------------------------------------------------
SignificantWhitespace 混合内容模型中标记间的空白或 xml:space="preserve"范围内的空白
---------------------------------------------------------------------
Text 节点的文本内容。可以以Attribute、DocumentFragment、Element、 EntityReference 节点的子节点的形式出现
---------------------------------------------------------------------
Whitespace 标记间的空白
---------------------------------------------------------------------
XmlDeclaration XML 声明 <?xml version='1.0'?>
=====================================================================
4.XmlTextReader应用示例:读一个xml文档-tmp.xml
文档tmp.xml的内容:
-----------------------------------------------------------------------
<?xml version="1.0" encoding="GB2312"?>
<bookstore>
<book name="文化苦旅">
<author nation="中国" 年代="当代">余秋雨&</author>
<price>32</price>
<press>华夏出版社</press>
</book>
</bookstore>
//文档有一个空白尾行
------------------------------------------------------------------------
C#代码:
------------------------------------------------------------------------
XmlTextReader xr4 = new XmlTextReader("temp.xml"); //装载整个文档到内存
xr4.WhitespaceHandling = WhitespaceHandling.All; //设置如何处理空白节点
while(xr4.Read())
{
Console.Write((" Type: " + xr4.NodeType).PadRight(20)); //打印节点类型
Console.Write((" Name: " + xr4.Name).PadRight(18)); //打印节点名称
Console.WriteLine(" Value: " + xr4.Value); //打印节点的值
if (xr4.HasAttributes) //如果当前节点有属性的话(非元素节点的此属性为null)
{
int tmp = xr4.AttributeCount;
for (int i = 0; i < tmp; i++ ) //循环打印元素节点的属性
{
xr4.MoveToAttribute(i); //移动到第n个属性上
Console.WriteLine((" Type: " + xr4.NodeType).PadRight(20)
+ (" Name: " + xr4.Name).PadRight(16)
+ (" value: " + xr4.Value.PadRight(10))
+ (" AttributeCount: " + xr4.AttributeCount) );
xr4.MoveToElement(); //回到元素节点
}
}
}
xr4.Close(); //关闭流对象
Console.ReadLine();
------------------------------------------------------------------------
输出:
----------------------------------------------------------------------------------
Type: XmlDeclaration Name: xml Value: version="1.0" encoding="GB2312"
Type: Attribute Name: version value: 1.0 AttributeCount: 2
Type: Attribute Name: encoding value: GB2312 AttributeCount: 2
Type: Whitespace Name: Value:
Type: Element Name: bookstore Value: //该节点没有属性,AttributeCount为null
Type: Whitespace Name: Value: //该节点没有属性,AttributeCount为null
Type: Element Name: book Value:
Type: Attribute Name: name value: 文化苦旅 AttributeCount: 1
Type: Whitespace Name: Value:
Type: Element Name: author Value:
Type: Attribute Name: nation value: 中国 AttributeCount: 2
Type: Attribute Name: 年代 value: 当代 AttributeCount: 2
Type: Text Name: Value: 余秋雨&
Type: EndElement Name: author Value:
Type: Whitespace Name: Value:
Type: Element Name: price Value:
Type: Text Name: Value: 32
Type: EndElement Name: price Value:
Type: Whitespace Name: Value:
Type: Element Name: press Value:
Type: Text Name: Value: 华夏出版社
Type: EndElement Name: press Value:
Type: Whitespace Name: Value:
Type: EndElement Name: book Value: //即book元素的结束标记</book>
Type: Whitespace Name: Value:
Type: EndElement Name: bookstore Value: //即结束标记</bookstore>
Type: Whitespace Name: Value: //文档的空白尾行
----------------------------------------------------------------------------------
5.XmlTextReader类的常用方法
1)在元素节点和属性节点之间移动
如果当前节点是元素节点,并且该元素拥有属性的话:
·使用MoveToAttribute()方法可以移动到属性节点,该方法要求指定属性名或属性的位置
·使用MoveToFirstAttribute()方法可以移动到第一个属性上,并返回true
·如果当前节点是元素节点,使用MoveToNextAttribute()方法等效于MoveToFirstAttribute方法。
如果已经移动到了属性节点上,并且存在下一个属性,调用该方法就会移动到下一个属性节点上
否则,读取器位置不变并返回false
如果读取器定位在属性上,使用MoveToElement()方法,则当前节点移动到属性所属的元素节点上。
2)跳过内容-两种方法
·一种方法是调用使用 MoveToContent 方法直接移动到内容节点
MoveToContent()方法检查当前节点以查看它是否是内容节点。
内容节点被定义为任意 Text、CDATA、Element、EndElement、EntityReference 或 EndEntity 节点。如果当前节点不是前述内容节点的类型之一,则将跳过该节点并跳到下一个内容节点或文件结尾。
它一直跳,直到找到下一个内容节点或到文件的结尾才停止。
如果当前节点是一个属性节点,则此方法将读取器移回拥有该属性的元素。
示例:
-----------------------------------------------------------------------------
if (reader.MoveToContent() == XmlNodeType.Element && reader.Name == "price")
{
_price = reader.ReadString();
}
-----------------------------------------------------------------------------
·另一种方法是直接调用 Skip 方法,该方法从当前节点跳过所有子节点到下一个同级节点
如果当前节点类型为XmlNodeType.Element,则调用skip方法将跳到同级的下一个节点上。
如果当前节点是属性节点,则调用skip方法将跳到属性所属元素节点的下一个同级节点上。
3)读方法
·Read()方法:如果成功读取了下一个节点,则为true;如果没有其他节点可读取,则为false
第一次创建和初始化读取器时,没有可用的信息。必须调用 Read() 读取第一个节点。
·ReadStartElement()方法:
检查当前节点是否为元素(类型为Element的节点)并将读取器推进到下一个节点
·ReadEndElement()方法:
检查当前节点是否为结束标记(类型为EndElement的节点)并将读取器推进到下一个节点
·ReadAttributeValue()方法:
将当前属性节点的属性值分解为一个或多个 Text、EntityReference 或 EndEntity 节点。
如果有可返回的节点,则返回true。如果进行初始调用时读取器不是定位在属性节点上,或者如果已读取了所有属性值,则返回false
如果是空属性(如 misc=""),则返回true,同时将属性值分解为 String.Empty 的单个节点
一般,当读取器移动到一个属性节点上后,通过循环调用ReadAttributeValue方法来分解属性的值
示例:读xml文档 <book genre='novel' misc='sale-item &h; 1987'></book>
---------------------------------------------------------------------
.......
reader.MoveToAttribute("misc"); //移动到属性misc上
while (reader.ReadAttributeValue()) //misc属性值包含实体应用,属性值被分解
{ //分解完属性值后,循环结束
if (reader.NodeType==XmlNodeType.EntityReference) //遇到实体引用节点
Console.WriteLine("{0} {1}", reader.NodeType, reader.Name);
else
Console.WriteLine("{0} {1}", reader.NodeType, reader.Value);
}
--------------------------------------------------------------------
4)使用字符流进行完整的内容读取
方法ReadChars、ReadBinHex、ReadBase64用于读取大型的流。ReadChars方法原样读取文本 (US-ASCII),ReadBase64方法解码Base64编码的文本,而ReadBinHex方法则解码binhex编码的数据。
ReadChars、ReadBinHex和ReadBase64方法只能用在元素上。在其他节点类型上使用这些方法不起作用
这三个方法都返回元素的开始标记和结束标记之间的所有内容,包括所有标记,就像在读出流一样。
·ReadChars方法: public int ReadChars(char[] buffer,int index,int count);
将元素的内容读入字符缓冲区。通过连续调用此方法,可以读取当前元素的非常大的嵌入文本流
此方法设计只用于元素节点。其他节点类型导致ReadChars返回0
此方法返回元素的实际字符内容,返回元素开始标记和结束标记之间的所有内容,包括标记
ReadChars方法忽略格式不正确的XML标记
当ReadChars方法已到达字符流的结尾时,它返回值0并且将读取器定位在结束标记之后
·ReadBase64方法: public int ReadBase64(byte[] array,int offset,int len);
和ReadChars方法一样,可以连续调用此方法以读取大的嵌入文本流。
它对Base64内容进行解码,并将解码的二进制字节(例如内联Base64编码的GIF图像)返回到缓冲区中
·ReadBinHex方法: public int ReadBinHex(byte[] array,int offset,int len);
与 ReadChars 一样,可以连续调用此方法以读取大的嵌入文本流。
它对BinHex内容进行解码并将解码的二进制字节(例如内联BinHex编码的GIF图像)返回到缓冲区中
5)读取字符内容
·ReadElementString方法:读取简单文本元素的方法
调用ReadElementString方法时,读取器将移动到下一个节点并读取其简单文本内容,如果该节点不是简单文本元素,则会报错。读取完之后,读取器将再向下移动一个节点
·ReadString方法:元素或文本节点的内容当做字符串读取
如果读取器定位在元素或文本节点以外的位置,或者当前上下文中没有其他文本内容,则返回空字符串
·ReadInnerXml方法:将节点的所有内容(包括子元素、文本内容等)当做字符串读取
如果当前读取器位于开始标记,则该方法返回开始标记与对应的结束标记之间所有的内容
如果当前读取器位于属性节点,则该方法返回属性的值
如果当前节点既非元素,也非属性,则返回空字符串
·ReadOuterXml方法:此方法类似于 ReadInnerXml,但它还返回开始标记和结束标记
如果当前读取器位于开始标记,则该方法返回 <开始标记>..内容..<结束标记/> 字符串
如果当前读取器位于属性节点,则该方法返回 属性名="属性值" 字符串
如果当前节点既非元素,也非属性,则返回空字符串
===================================================
2.XmlValidatingReader类
1)XmlValidatingReader类是一个能够提供 DTD、XDR 和 XSD 验证的读取器,能够提供数据验证、解析常规实体的能力和对默认属性的支持,该类也是继承自 XmlReader 类。
2)XmlValidatingReader类基本上类似于XmlTextReader类,但它增加了ValidationType、Schema和 SchemaType、XmlResolver 等新的属性
·ValidationType属性指示验证的类型,其值域为:Auto,DTD,Schema,XDR,None
·Schema属性用于需要多个xdr或xsd参与验证的情况,Schema属性实质上是一个XmlSchemaCollection
·SchemaType属性返回当前节点的类型:XSD内置类型、用户自定义类型(simpleType/complexType)
·XmlResolver属性用于解析外部实体(比如DTD中定义的外部实体)
3)使用XmlValidatingReader类进行验证的最佳操作:
·创建一个XmlTextReader对象tr,将tr对象传给XmlValidatingReader构造函数生成一个对象trv
·设置XmlValidatingReader类型对象trv的ValidationType属性(默认值为Auto)
·为事件ValidationEventHandler定义和分配事件处理方法ValidationEvent
trv.ValidationEventHandler += new ValidationEventHandler(this.ValidationEvent)
因为如果验证出错误时,就会引发trv对象的ValidationEventHandler事件,需要对该事件进行处理
·像使用XmlTextReader类对象那样使用XmlValidatingReader对象trv
4)仅当在调用Read、ReadInnerXml、ReadOuterXml或Skip方法的过程中,且XmlValidatingReader对象trv的ValidationType属性不是ValidationType.None时,才可能发生ValidationEventHandler验证事件
如果不提供ValidationEventHandler事件的处理程序,当遇到级别为Warning的验证错误时,仍会继续读取数据不引发异常。当遇到第一个级别为Error的验证错误时,XmlValidatingReader对象trv将会引发异常XmlException,之后trv对象也将无法重新启动。
当根据架构或DTD进行验证时,如果发生验证错误,也将引发XmlSchemaException异常
如果某个元素报告验证错误,则不验证该元素其余的内容模型,但是将验证其子级。读取器只报告给定元素的第一个错误
ValidationEventHandler事件处理程序可以使用ValidationEventArgs类对象e的Severity属性来保证根据架构验证了XML实例文档。Severity属性可以区分验证错误和验证警告,验证错误(Severity 等于 XmlSeverityType.Error)表示致命错误,而验证警告(Severity 等于 XmlSeverityType.Warning)指示没有可用的架构信息。