[python3 - package] lxml

1. 安装 pip install lxml

2. 官方文档 http://lxml.de/

3. 常用类 - Element

  • 将request.get()返回的html转换为Element
from lxml import etree

res = requests.get('http://www.test.com/1.html')
page = res.text
etree_source = etree.HTML(page) #返回Element类,直接打印为<Element html at 0x255a3437648>

 

4. 常用方法

  • Element.xpath()
    • 返回Element类
    • 可以精确定位到想要的node
    • 如果匹配多个,可以循环
    • 如果要获取这个element下,不管多少层的child node内的text,可以用Element.xpaht(string(.))
    • 可以直接获取attribute,如Element.xpath('//a/@href')
  • Element.findall()
    • 返回Elemenet类
    • 能匹配到所有满足的路径
    • 如果匹配多个,可以循环
    • 不能直接获取attribute,如Element.xpath('//a/@href')

 

posted @ 2018-05-22 07:07  break大蜗牛  阅读(117)  评论(0编辑  收藏  举报