python 之模块之 xml.dom.minidom
# -*- coding: cp936 -*-
#python 27
#xiaodeng
#python 之模块之 xml.dom.minidom解析xml
#http://www.cnblogs.com/coser/archive/2012/01/10/2318298.html
#python有三种方法解析XML,SAX,DOM,以及ElementTree
#import xml.dom
#这里主要通过xml.dom.minidom创建xml文档,然后解析用以熟悉api
#常用方法function()
'''
minidom.parse(filename) #加载和读取xml文件
doc.documentElement #获取xml文档对象
node.getAttribute(AttributeName) #获取xml节点属性值
node.getElementsByTagName(TagName) #获取xml节点对象集合
node.childNodes #获取子节点列表
node.childNodes[index].nodeValue #获取xml节点值
node.firstChild #访问第一个节点
n.childNodes[0].data #获得文本值
node.childNodes[index].nodeValue #获取XML节点值
doc=minidom.parse(filename)
doc.toxml('utf-8') #返回Node节点的xml表示的文本
'''
#test.xml
'''
<collection shelf="New Arrivals">
<movie title="Enemy Behind">
<type>War, Thriller</type>
<format>DVD</format>
<year>2003</year>
<rating>PG</rating>
<stars>10</stars>
<description>Talk about a US-Japan war</description>
</movie>
<movie title="Transformers">
<type>Anime, Science Fiction</type>
<format>DVD</format>
<year>1989</year>
<rating>R</rating>
<stars>8</stars>
<description>A schientific fiction</description>
</movie>
<movie title="Trigun">
<type>Anime, Action</type>
<format>DVD</format>
<episodes>4</episodes>
<rating>PG</rating>
<stars>10</stars>
<description>Vash the Stampede!</description>
</movie>
<movie title="Ishtar">
<type>Comedy</type>
<format>VHS</format>
<rating>PG</rating>
<stars>2</stars>
<description>Viewable boredom</description>
</movie>
</collection>
'''
#解析案例
from xml.dom import minidom
doc=minidom.parse('test.xml') #parse("foo.xml")
#parseString("<foo><bar/></foo>")
#实例化
root=doc.documentElement #注意没括号
#文档对象元素
print '--'*25
print root.nodeName #节点名字,collection
print root.nodeValue #节点的值,None
print root.nodeType #节点类型,1
print root.ELEMENT_NODE #1
print '--'*25
#在集合中获取所有电影
nodes=root.getElementsByTagName('movie') #获取xml节点对象集合
#打印每部电影的详细信息
for n in nodes:
#print n#<DOM Element: movie at 0x1f9d968>
#获得电影的title的属性值
#print n.getAttribute('title')
#获取xml节点type对象的具体信息
type= n.getElementsByTagName('type')[0]
print "Type:%s" % type.childNodes[0].data##获得文本值
例:
一、DOM写XML文件
1 #导入minidom 2 from xml.dom import minidom 3 4 # 1.创建DOM树对象 5 dom=minidom.Document() 6 # 2.创建根节点。每次都要用DOM对象来创建任何节点。 7 root_node=dom.createElement('root') 8 # 3.用DOM对象添加根节点 9 dom.appendChild(root_node) 10 11 # 用DOM对象创建元素子节点 12 book_node=dom.createElement('book') 13 # 用父节点对象添加元素子节点 14 root_node.appendChild(book_node) 15 # 设置该节点的属性 16 book_node.setAttribute('price','199') 17 18 name_node=dom.createElement('name') 19 root_node.appendChild(name_node) 20 # 也用DOM创建文本节点,把文本节点(文字内容)看成子节点 21 name_text=dom.createTextNode('计算机程序设计语言 第1版') 22 # 用添加了文本的节点对象(看成文本节点的父节点)添加文本节点 23 name_node.appendChild(name_text) 24 25 # 每一个结点对象(包括dom对象本身)都有输出XML内容的方法,如:toxml()--字符串, toprettyxml()--美化树形格式。 26 27 try: 28 with open('dom_write.xml','w',encoding='UTF-8') as fh: 29 # 4.writexml()第一个参数是目标文件对象,第二个参数是根节点的缩进格式,第三个参数是其他子节点的缩进格式, 30 # 第四个参数制定了换行格式,第五个参数制定了xml内容的编码。 31 dom.writexml(fh,indent='',addindent='\t',newl='\n',encoding='UTF-8') 32 print('写入xml OK!') 33 except Exception as err: 34 print('错误信息:{0}'.format(err))
结果如下:
<?xml version="1.0" encoding="utf8"?> <root> <book price="99"> <name>计算机程序设计语言 第1版</name> </book> </root>
二、DOM解析XML文件
1 from xml.dom import minidom 2 with open('dom_write.xml','r',encoding='utf8') as fh: 3 # parse()获取DOM对象 4 dom=minidom.parse(fh) 5 # 获取根节点 6 root=dom.documentElement 7 # 节点名称 8 print(root.nodeName) 9 # 节点类型:'ELEMENT_NODE',元素节点; 'TEXT_NODE',文本节点; 'ATTRIBUTE_NODE',属性节点 10 print(root.nodeType) 11 # 获取某个节点下所有子节点,是个列表 12 print(root.childNodes) 13 # 通过dom对象或根元素,再根据标签名获取元素节点,是个列表 14 book=root.getElementsByTagName('book')[0] 15 # 获取节点属性 16 print(book.getAttribute('price')) 17 18 # 获取某个元素节点的文本内容,先获取子文本节点,然后通过“data”属性获取文本内容 19 name=root.getElementsByTagName('name')[0] 20 name_text_node=name.childNodes[0] 21 print(name_text_node.data) 22 23 # 获取某节点的父节点 24 print(name.parentNode.nodeName)
一、DOM写XML文件
1 #导入minidom 2 from xml.dom import minidom 3 4 # 1.创建DOM树对象 5 dom=minidom.Document() 6 # 2.创建根节点。每次都要用DOM对象来创建任何节点。 7 root_node=dom.createElement('root') 8 # 3.用DOM对象添加根节点 9 dom.appendChild(root_node) 10 11 # 用DOM对象创建元素子节点 12 book_node=dom.createElement('book') 13 # 用父节点对象添加元素子节点 14 root_node.appendChild(book_node) 15 # 设置该节点的属性 16 book_node.setAttribute('price','199') 17 18 name_node=dom.createElement('name') 19 root_node.appendChild(name_node) 20 # 也用DOM创建文本节点,把文本节点(文字内容)看成子节点 21 name_text=dom.createTextNode('计算机程序设计语言 第1版') 22 # 用添加了文本的节点对象(看成文本节点的父节点)添加文本节点 23 name_node.appendChild(name_text) 24 25 # 每一个结点对象(包括dom对象本身)都有输出XML内容的方法,如:toxml()--字符串, toprettyxml()--美化树形格式。 26 27 try: 28 with open('dom_write.xml','w',encoding='UTF-8') as fh: 29 # 4.writexml()第一个参数是目标文件对象,第二个参数是根节点的缩进格式,第三个参数是其他子节点的缩进格式, 30 # 第四个参数制定了换行格式,第五个参数制定了xml内容的编码。 31 dom.writexml(fh,indent='',addindent='\t',newl='\n',encoding='UTF-8') 32 print('写入xml OK!') 33 except Exception as err: 34 print('错误信息:{0}'.format(err))
结果如下:
<?xml version="1.0" encoding="utf8"?> <root> <book price="99"> <name>计算机程序设计语言 第1版</name> </book> </root>
二、DOM解析XML文件
1 from xml.dom import minidom 2 with open('dom_write.xml','r',encoding='utf8') as fh: 3 # parse()获取DOM对象 4 dom=minidom.parse(fh) 5 # 获取根节点 6 root=dom.documentElement 7 # 节点名称 8 print(root.nodeName) 9 # 节点类型:'ELEMENT_NODE',元素节点; 'TEXT_NODE',文本节点; 'ATTRIBUTE_NODE',属性节点 10 print(root.nodeType) 11 # 获取某个节点下所有子节点,是个列表 12 print(root.childNodes) 13 # 通过dom对象或根元素,再根据标签名获取元素节点,是个列表 14 book=root.getElementsByTagName('book')[0] 15 # 获取节点属性 16 print(book.getAttribute('price')) 17 18 # 获取某个元素节点的文本内容,先获取子文本节点,然后通过“data”属性获取文本内容 19 name=root.getElementsByTagName('name')[0] 20 name_text_node=name.childNodes[0] 21 print(name_text_node.data) 22 23 # 获取某节点的父节点 24 print(name.parentNode.nodeName)