摘要: 第三百三十七节,web爬虫讲解2—PhantomJS虚拟浏览器+selenium模块操作PhantomJS PhantomJS虚拟浏览器 phantomjs 是一个基于js的webkit内核无头浏览器 也就是没有显示界面的浏览器,利用这个软件,可以获取到网址js加载的任何信息,也就是可以获取浏览器异 阅读全文
posted @ 2017-08-01 22:53 林贵秀 阅读(474) 评论(0) 推荐(0) 编辑
摘要: 第三百三十六节,web爬虫讲解2—urllib库中使用xpath表达式—BeautifulSoup基础 在urllib中,我们一样可以使用xpath表达式进行信息提取,此时,你需要首先安装lxml模块,然后将网页数据通过lxml下的etree转化为treedata的形式 urllib库中使用xpat 阅读全文
posted @ 2017-08-01 15:59 林贵秀 阅读(497) 评论(0) 推荐(0) 编辑