摘要: 在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也能分析html结构), 利用其lxml.html的xpath对html进行分析,获取抓取信息。 首先,我们需要安装一个支持xpath的python库。目前在libxml2的... 阅读全文
posted @ 2015-04-07 22:09 whgiser 阅读(62173) 评论(0) 推荐(3) 编辑