摘要: 1、xpath解析 1.1、环境的安装: ​ pip install lxml 1.2、实现流程: 1.实例化一个etree类型的对象,且把即将被解析的页面源码内容加载到该对象中 2.调用etree对象中的xpath方法结合着不同形式的xpath表达式进行标签定位和数据提取 1.3、etree对象的 阅读全文
posted @ 2020-06-17 22:22 自己有自己的调调、 阅读(257) 评论(0) 推荐(0) 编辑
摘要: 1、引入 聚焦爬虫:在通用爬虫的基础之上,可以将一张页面中局部指定的数据进行爬取。可以通过数据解析的方式将一张页面中局部的数据进行解析或者提取。 数据解析方式: 正则 bs4 xpath(重点) pyquery 聚焦爬虫编码流程: 指定url 发起请求 获取响应数据 数据解析 持久化存储 2、数据解 阅读全文
posted @ 2020-06-17 22:18 自己有自己的调调、 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志: 修饰符 描述 re.I 使匹配对大小写不敏感 re.L 做本地化识别(locale-aware)匹配 re.M 阅读全文
posted @ 2020-06-17 19:39 自己有自己的调调、 阅读(478) 评论(2) 推荐(0) 编辑
摘要: 1、requests作用: 就是一个基于网络请求的模块,可以用来模拟浏览器发请求。 环境安装: pip install requests requests模块的使用流程: 指定一个字符串形式url 发起请求 获取响应数据 持久化存储 实现一个简易的网页采集器 爬取到任意关键字对应的页面源码数据 简单 阅读全文
posted @ 2020-06-17 00:14 自己有自己的调调、 阅读(2408) 评论(0) 推荐(0) 编辑