随笔分类 - Python3网络爬虫 / 03.网页数据的解析提取

parsel的使用

摘要：介绍 parsel这个库可以解析HTML和XML，并支持使用XPath和CSS选择器对内容进行提取和修改，同时还融合了正则表达式的提取功能。parsel灵活强大，同时也是Python最流行的爬虫框架的底层支持。 parsel的API和Scrapy选择器的API极其相似，因为Scrapy的选择器就是基阅读全文

posted @ 2024-05-24 16:07 JJJhr 阅读(186) 评论(0) 推荐(0) 编辑

pyquery的使用

摘要：使用 pyquery 若对 Web 有所涉及，比较喜欢用 CSS 选择器，对 jQuery 有所了解，可以使用解析库 ——pyquery。准备工作安装 pyquery库 pip3 install pyquery 初始化像 Beautiful Soup 一样，初始化 pyquery 的时候，也需阅读全文

posted @ 2024-05-24 16:06 JJJhr 阅读(60) 评论(0) 推荐(0) 编辑

Beautiful Soup的使用

摘要：学习了正则表达式的相关用法，一旦正则表达式写的有问题，得到的可能就不是想要的结果了。对于一个网页来说，都有一定的特殊结构和层级关系，很多节点都有 id 或 class 来作区分，所以借助它们的结构和属性来提取也可以。 Beautiful Soup是一个强大的解析工具，它借助网页的结构和属性等特性来阅读全文

posted @ 2024-05-24 16:06 JJJhr 阅读(17) 评论(0) 推荐(0) 编辑

XPath的使用

摘要：正则表达式比较烦琐，万一有地方写错了，可能导致匹配失败，所以使用正则表达式提取页面信息多多少少还是有些不方便。对于网页的节点来说，它可以定义 id、class 或其他属性。而且节点之间还有层次关系，在网页中可以通过 XPath 或 CSS 选择器来定位一个或多个节点。那么，在页面解析时，利用 XP 阅读全文

posted @ 2024-05-24 16:05 JJJhr 阅读(34) 评论(0) 推荐(0) 编辑

公告

昵称： JJJhr
园龄： 4年11个月
粉丝： 0
关注： 1

+加关注

2025年3月

日

一

二

三

四

五

六

JJJhr'blog

随笔分类 - Python3网络爬虫 / 03.网页数据的解析提取

公告

搜索

常用链接

合集

随笔分类

随笔档案

阅读排行榜

推荐排行榜