随笔分类 -  python爬虫

摘要:XPath解析 XPath(XML Path Language)是一种用于在XML和HTML文档中查找信息的语言,其通过路径表达式来定位节点,属性和文本内容,并支持复杂查询条件,XPath 是许多 Web 抓取工具如 Scrapy,Selenium 等的核心技术之一 XPath 解析的基本步骤 导入 阅读全文
posted @ 2024-12-04 00:32 ihav2carryon 阅读(542) 评论(0) 推荐(1) 编辑
摘要:BeautifulSoup(bs4) BeautifulSoup是python的一个库,最主要的功能是从网页爬取数据,官方是这样解释的:BeautifulSoup提供一些简单,python式函数来处理导航,搜索,修改分析树等功能,其是一个工具库,通过解析文档为用户提供需要抓取的数据,因为简单,所有不 阅读全文
posted @ 2024-11-30 21:06 ihav2carryon 阅读(1009) 评论(0) 推荐(1) 编辑
摘要:re模块 python爬虫过程中,实现页面元素解析的方法很多,正则解析只是其中之一,常见的还有BeautifulSoup和lxml,它们都支持网页HTML元素解析,re模块提供了强大的正则表达式功能 re模块常用方法 compile(pattern,flags=0) :用于编译一个正则表达式字符串, 阅读全文
posted @ 2024-11-26 21:00 ihav2carryon 阅读(202) 评论(0) 推荐(2) 编辑
摘要:正则表达式 最近学校布置了一个关于python爬虫的期末作业,而我之前对python爬虫一直都比较感兴趣但是没有系统的学过,就想借此机会开个新坑来系统学习和应用python爬虫,那我们开始吧 正则表达式在爬虫中扮演很重要的角色,几乎所有有关字符串的操作都可以使用正则表达式来完成,其可以帮助我们高效地 阅读全文
posted @ 2024-11-25 23:58 ihav2carryon 阅读(64) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示