Python爬虫教程-18-页面解析和数据提取
本篇针对的数据是已经存在在页面上的数据,不包括动态生成的数据,今天是对HTML中提取对我们有用的数据,去除无用的数据
Python爬虫教程-18-页面解析和数据提取
- 结构化数据:先有的结构,再谈数据
- json数据
- 1.处理此类数据,通常使用JSON Path
- 2.转换成python类型的数据,再进行操作(json类)
- XML文件
- 转换成python类型(xmltodict)
- XPath
- CSS选择器
- 正则表达式
- json数据
- 非结构化数据:先有的数据,再谈结构
- 文本
- 电话号码
- 邮箱地址
- 处理此类数据,通常使用正则表达式
- HTML代码
- 正则表达式
- XPath
- CSS选择器
具体内容文章链接
- 正则表达式 点我链接
- match:从开始位置开始查找,一次匹配,即1次匹配成功则退出
- search:从任何位置开始查找,一次匹配
- findall:全部匹配,返回列表
- finditer:全部匹配,返回迭代器
- split:分割字符串,返回列表
- sub:替换
- xml 点我链接
- x-path 点我链接
更多文章链接:Python 爬虫随笔
- 本笔记不允许任何个人和组织转载