摘要: 1. pyquery 1.1 介绍 Jquery解析库 "官网" https://pythonhosted.org/pyquery/ 1.2 安装 pip install pyquery 1.3 使用方式 1.3.1 初始化方式 字符串 url 文件 1.3.2 选择节点 获取当前节点 获取子节点 阅读全文
posted @ 2020-05-24 23:42 |Thresh| 阅读(547) 评论(0) 推荐(0) 编辑
摘要: 1. JSON与JsonPATH JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景,比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 Pyt 阅读全文
posted @ 2020-05-24 23:40 |Thresh| 阅读(308) 评论(0) 推荐(0) 编辑
摘要: 1. 介绍 之前 BeautifulSoup 的用法,这个已经是非常强大的库了,不过还有一些比较流行的解析库,例如 lxml,使用的是 Xpath 语法,同样是效率比较高的解析方法。如果大家对 BeautifulSoup 使用不太习惯的话,可以尝试下 Xpath "官网" http://lxml.d 阅读全文
posted @ 2020-05-24 23:37 |Thresh| 阅读(519) 评论(0) 推荐(0) 编辑
摘要: 1. Beautiful Soup的简介 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful Soup自动将输入文档 阅读全文
posted @ 2020-05-24 23:35 |Thresh| 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 1. 提取数据 使用正则表达式提取数据 正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。 正则表达式是用来匹配字符串非常强大的工具,在其他编程语言中同样有正则表达式的概念,Pyth 阅读全文
posted @ 2020-05-24 23:32 |Thresh| 阅读(377) 评论(0) 推荐(0) 编辑