随笔分类 - 爬虫

XPath

摘要：XPath是一门在XML文档中查找信息的语言，被用于在XML文档中通过元素和属性进行导航。XPath虽然是被设计用来搜寻XML文档，不过它也能很好地在HTML文档中工作，并且大部分浏览器也支持通过XPath来查询节点。 1.XPath节点在XPath中，XML文档是被作为节点树来对待的，有七种类型阅读全文

posted @ 2019-08-01 12:14 明王不动心阅读(276) 评论(0) 推荐(0) 编辑

爬虫基础库之Selenium

摘要：1.简介 selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScript代码的问题 selenium本质是通过驱动浏览器，完全模拟浏览器的操作，比如跳转、输入、点击、下拉等，来拿到网页渲染之后的结果，可支持多种浏览器 from selenium 阅读全文

posted @ 2018-03-24 02:33 明王不动心阅读(282) 评论(0) 推荐(0) 编辑

爬虫基础库之requests模块

摘要：一、requests模块简介使用requests可以模拟浏览器请求，比起之前用到的urllib，requests模块的api更加快捷，其实ruquests的本质就是封装urllib3这个模块。 requests库发送请求将网页内容下载下来以后，并不会执行js代码，这需要我们自己分析目标站点然后发起阅读全文

posted @ 2018-03-21 21:04 明王不动心阅读(672) 评论(0) 推荐(0) 编辑

爬虫基本库之beautifulsoup

摘要：一、beautifulsoup的简单使用简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下：更多知识访问：官方文档 1.安装（1）解析器 Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我阅读全文

posted @ 2018-03-01 22:21 明王不动心阅读(864) 评论(0) 推荐(0) 编辑

公告

昵称：明王不动心
园龄： 7年4个月
粉丝： 83
关注： 14

+加关注

2025年3月

日

一

二

三

四

五

六

随笔分类 - 爬虫

公告

搜索

常用链接

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论