06 2010 档案

摘要:在Selenium项目实践中,为处理页面不同的link,button等页面元素,最好把这些页面元素和对应的Xpath写入配置文件,本文试图创建一个自定义的ConfigParser,处理配置文件的解析。虽然是很小的一个类,但也从中学习到很多东东。主要分三步:1. 得到配置文件的路径一般来说文件解析类会放在commonfunction目录下,而配置文件会放在同级的configuration目录下在Py... 阅读全文
posted @ 2010-06-08 13:23 小楼 阅读(2302) 评论(0) 推荐(0) 编辑
摘要:解析器对象:lxml.etree在默认情况下使用带默认配置的标准解析器,如果想配置解析器,可以创建自己的实例。 >>> parser = etree.XMLParser(remove_blank_text=True) # lxml.etree only! 本例在解析的时候创建了一个移除tags之间的空的文本的解析器,这可以减少tree的大小以及避免不定的tail,如果你知道空白... 阅读全文
posted @ 2010-06-02 22:09 小楼 阅读(2063) 评论(0) 推荐(0) 编辑
摘要:序列化: 序列化通常使用tostring()方法来返回一个字符串,或者ElementTree.write()方法来写入一个文件,一个类文件的对象,或者一个URL(通过FTP的PUT或者HTTP的POST)。二者都使用相同的关键字参数比如pretty_print来格式化输出或者encoding来选择一个特定的输出编码而不是简单的ASCII。 >>> root = etree.XML... 阅读全文
posted @ 2010-06-02 14:43 小楼 阅读(6266) 评论(0) 推荐(0) 编辑
摘要:使用XPath查找文本 另一个抽取XML树的文本内容是XPath,>>> print(html.xpath("string()")) # lxml.etree only!TEXTTAIL>>> print(html.xpath("//text()")) # lxml.etree only![’TEXT’, ’TAIL... 阅读全文
posted @ 2010-06-01 17:24 小楼 阅读(3973) 评论(0) 推荐(1) 编辑

点击右上角即可分享
微信分享提示