随笔分类 -  爬虫

摘要:XPath是一门在XML文档中查找信息的语言,被用于在XML文档中通过元素和属性进行导航。XPath虽然是被设计用来搜寻XML文档,不过它也能很好地在HTML文档中工作,并且大部分浏览器也支持通过XPath来查询节点。 1.XPath节点 在XPath中,XML文档是被作为节点树来对待的,有七种类型 阅读全文
posted @ 2019-08-01 12:14 明王不动心 阅读(276) 评论(0) 推荐(0) 编辑
摘要:1.简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器 from selenium 阅读全文
posted @ 2018-03-24 02:33 明王不动心 阅读(282) 评论(0) 推荐(0) 编辑
摘要:一、requests模块简介 使用requests可以模拟浏览器请求,比起之前用到的urllib,requests模块的api更加快捷,其实ruquests的本质就是封装urllib3这个模块。 requests库发送请求将网页内容下载下来以后,并不会执行js代码,这需要我们自己分析目标站点然后发起 阅读全文
posted @ 2018-03-21 21:04 明王不动心 阅读(672) 评论(0) 推荐(0) 编辑
摘要:一、beautifulsoup的简单使用 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: 更多知识访问:官方文档 1.安装 (1)解析器 Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我 阅读全文
posted @ 2018-03-01 22:21 明王不动心 阅读(864) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示