摘要: 基本使用 selenium在爬虫中的应用 获取动态网页中的数据,一些动态的数据我们在获取的源码中并没有显示的之一类动态加载数据 可用于模拟登录 安装selenium pip install selenium 下载浏览器驱动 Chrome浏览器 下载地址:http://chromedriver.sto 阅读全文
posted @ 2022-07-04 20:20 葛老头 阅读(216) 评论(0) 推荐(0) 编辑
摘要: 什么是lxml库 lxml是一种使用Python编写的库,可以迅速、灵活地处理XML 支持XPath(XML Path Language) 学习lxml库的目的 利用XPath语法,来快速的定位特定元素以及节点信息 目的是提取出HTML、XML目标的数据 安装lxml库 pip install lx 阅读全文
posted @ 2022-07-04 20:19 葛老头 阅读(264) 评论(0) 推荐(0) 编辑
摘要: 什么是Beautiful Soup库 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能 它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序 Beautiful Soup就是python的一 阅读全文
posted @ 2022-07-04 16:27 葛老头 阅读(645) 评论(0) 推荐(1) 编辑
摘要: 什么是XPath XPath即为XML路径语言(XML Path Language) XPath可以用于定位XML文本的节点 实际上,XPath也适用于定位HTML中的节点 节点及节点间的关系 在HTML中,节点就是一个个HTML标签 分析节点间的关系也就是要清楚HTML文档中各标签间的关系 理清这 阅读全文
posted @ 2022-07-04 16:25 葛老头 阅读(205) 评论(0) 推荐(0) 编辑