2020 年 6月 17 日随笔档案 - 自己有自己的调调、

2020年6月17日

摘要： 1、xpath解析 1.1、环境的安装： pip install lxml 1.2、实现流程： 1.实例化一个etree类型的对象，且把即将被解析的页面源码内容加载到该对象中 2.调用etree对象中的xpath方法结合着不同形式的xpath表达式进行标签定位和数据提取 1.3、etree对象的阅读全文

posted @ 2020-06-17 22:22 自己有自己的调调、阅读(274) 评论(0) 推荐(0) 编辑

3、Python 数据解析【1】

摘要： 1、引入聚焦爬虫：在通用爬虫的基础之上，可以将一张页面中局部指定的数据进行爬取。可以通过数据解析的方式将一张页面中局部的数据进行解析或者提取。数据解析方式：正则 bs4 xpath（重点） pyquery 聚焦爬虫编码流程：指定url 发起请求获取响应数据数据解析持久化存储 2、数据解阅读全文

posted @ 2020-06-17 22:18 自己有自己的调调、阅读(204) 评论(0) 推荐(0) 编辑

Python正则re.S，re.I等作用

摘要：正则表达式可以包含一些可选标志修饰符来控制匹配的模式。修饰符被指定为一个可选的标志。多个标志可以通过按位 OR(|) 它们来指定。如 re.I | re.M 被设置成 I 和 M 标志：修饰符描述 re.I 使匹配对大小写不敏感 re.L 做本地化识别（locale-aware）匹配 re.M 阅读全文

posted @ 2020-06-17 19:39 自己有自己的调调、阅读(487) 评论(2) 推荐(0) 编辑

2、Python 使用Requests库通用爬取数据操作

摘要： 1、requests作用：就是一个基于网络请求的模块，可以用来模拟浏览器发请求。环境安装： pip install requests requests模块的使用流程：指定一个字符串形式url 发起请求获取响应数据持久化存储实现一个简易的网页采集器爬取到任意关键字对应的页面源码数据简单阅读全文

posted @ 2020-06-17 00:14 自己有自己的调调、阅读(2472) 评论(0) 推荐(0) 编辑

自己有自己的调调、

公告