06 2010 档案
摘要:在Selenium项目实践中,为处理页面不同的link,button等页面元素,最好把这些页面元素和对应的Xpath写入配置文件,本文试图创建一个自定义的ConfigParser,处理配置文件的解析。虽然是很小的一个类,但也从中学习到很多东东。主要分三步:1. 得到配置文件的路径一般来说文件解析类会放在commonfunction目录下,而配置文件会放在同级的configuration目录下在Py...
阅读全文
摘要:解析器对象:lxml.etree在默认情况下使用带默认配置的标准解析器,如果想配置解析器,可以创建自己的实例。 >>> parser = etree.XMLParser(remove_blank_text=True) # lxml.etree only! 本例在解析的时候创建了一个移除tags之间的空的文本的解析器,这可以减少tree的大小以及避免不定的tail,如果你知道空白...
阅读全文
摘要:序列化: 序列化通常使用tostring()方法来返回一个字符串,或者ElementTree.write()方法来写入一个文件,一个类文件的对象,或者一个URL(通过FTP的PUT或者HTTP的POST)。二者都使用相同的关键字参数比如pretty_print来格式化输出或者encoding来选择一个特定的输出编码而不是简单的ASCII。 >>> root = etree.XML...
阅读全文
摘要:使用XPath查找文本 另一个抽取XML树的文本内容是XPath,>>> print(html.xpath("string()")) # lxml.etree only!TEXTTAIL>>> print(html.xpath("//text()")) # lxml.etree only![’TEXT’, ’TAIL...
阅读全文