Python爬虫教程-20-xml 简介

本篇简单介绍 xml 在python爬虫方面的使用,想要具体学习 xml 可以到 w3school 查看 xml 文档
xml 文档链接:http://www.w3school.com.cn/xmldom/xmldom_reference.asp

Python爬虫教程-20-xml简介

  • XML(Extensible Markup Language) 可扩展标记语言,标准通用标记语言的子集,是一种用于标记电子文件使其具有结构性的标记语言。
  • 用途:它被设计用来 传输存储 数据

简单的概念:

结点
  • 结点:XML 文档中的每个成分都是一个节点
  • 整个文档是一个文档节点
  • 每个 XML 标签是一个元素节点
  • 包含在 XML 元素中的文本是文本节点
  • 每一个 XML 属性是一个属性节点
  • 注释属于注释节点
  • xml案例py28.xml文件:https://xpwi.github.io/py/py爬虫/py28.xml
<?xml version="1.0" encoding="UTF-8" ?>

<booksore>
    <book category="cooking">
        <title lang="en">Everyday Italian</title>
        <auther>Gidada De</auther>
        <year>2018</year>
        <price>23</price>
    </book>

    <book category="education">
        <title lang="en">Python is Python</title>
        <auther>Food War</auther>
        <year>2008</year>
        <price>83</price>
    </book>

    <book category="sport">
        <title lang="en">Running</title>
        <auther>Klaus Kuka</auther>
        <year>2010</year>
        <price>43</price>
    </book>

</booksore>
  • 在上面的 XML 中,根节点是 。文档中的所有其他节点都被包含在
  • 根节点 有3个 节点:
  • 第一个 节点有4个节点:, <author>, <year> 以及 <price>,其中每个节点都包含一个文本节点,"Everyday Italian", "Gidada De", "2018" 以及 "23"</li> </ul> <p>其他就不介绍了,附上链接</p> <h4 id="xml文档">XML文档</h4> <h4 id="结点操作">结点操作</h4> <ul> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_get.asp" target="_blank">XML DOM 获取节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_set.asp" target="_blank">XML DOM 改变节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_remove.asp" target="_blank">XML DOM 删除节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_replace.asp" target="_blank">XML DOM 替换节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_create.asp" target="_blank">XML DOM 创建节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_add.asp" target="_blank">XML DOM 添加节点值</a></li> <li><a href="http://www.w3school.com.cn/xmldom/dom_nodes_clone.asp" target="_blank">XML DOM 克隆节点值</a></li> </ul> <p>自行查看文档就可以 <a href="http://www.w3school.com.cn/xmldom/dom_intro.asp" target="_blank">http://www.w3school.com.cn/xmldom/dom_intro.asp</a></p> <h3 id="更多文章链接python-爬虫随笔">更多文章链接:<a href="https://www.cnblogs.com/xpwi/tag/Python%20%E7%88%AC%E8%99%AB/" target="_blank">Python 爬虫随笔</a></h3> <hr>- 本笔记不允许任何个人和组织转载
posted @ 2018-09-06 20:55  xpwi  阅读(432)  评论(0编辑  收藏  举报