随笔分类 - 爬虫

爬虫...

Scrapy框架

该文被密码保护。

posted @ 2024-04-08 12:04 ssrheart 阅读(2) 评论(0) 推荐(0) 编辑

该文被密码保护。

posted @ 2024-04-08 12:02 ssrheart 阅读(0) 评论(0) 推荐(0) 编辑

Selenium框架

摘要：Selenium框架 Selenium是一个自动化测试工具，用于模拟用户在Web应用程序上的操作。它提供了多种编程语言的接口，如Python、Java等，使测试人员能够编写自动化测试脚本。Selenium可以模拟用户在不同浏览器上的操作，包括点击、输入文本等，以验证Web应用程序的功能和性能。它还支阅读全文

posted @ 2024-04-08 12:02 ssrheart 阅读(44) 评论(0) 推荐(0) 编辑

爬虫介绍

摘要：Python爬虫（1）介绍 Python爬虫是一种自动化获取互联网数据的技术，它通过编写程序实现自动访问网站并抓取所需的数据。爬虫是一种自动化获取互联网数据的技术，通过模拟浏览器行为，向目标网站发送请求并获取响应，然后解析响应中的数据。（2）爬虫的常用库（1）requests 用于发送HTT 阅读全文

posted @ 2024-03-31 17:04 ssrheart 阅读(15) 评论(0) 推荐(0) 编辑

requests模块

摘要：requests模块（1）GET请求（1）发送get请求 import requests url = "https://www.baidu.com/" # 发送请求获取响应数据 response = requests.get(url) 其中，一些常用的属性和方法包括： status_code: 阅读全文

posted @ 2024-03-31 17:04 ssrheart 阅读(46) 评论(0) 推荐(0) 编辑

爬虫案例

该文被密码保护。

posted @ 2024-03-31 17:04 ssrheart 阅读(1) 评论(0) 推荐(0) 编辑

BeatifulSoup

摘要：BeatifulSoup （1）介绍 Beautiful Soup是Python库，用于解析HTML和XML文档。它提供简单而强大的工具，帮助用户从网页中提取数据。通过查找元素、遍历文档树和处理编码问题，它简化了数据提取过程。适用于网页抓取、数据挖掘和分析等应用场景。 pip install bea 阅读全文

posted @ 2024-03-31 17:04 ssrheart 阅读(52) 评论(0) 推荐(0) 编辑

xpath

摘要：xpath （1）介绍可在XML中查找信息支持HTML的查找通过元素和属性进行导航 pip install lxml from lxml import etree # 将源码转化为能被XPath匹配的格式 selector = etree.HTML(源码) # 返回为一列表 res = sel 阅读全文

posted @ 2024-03-31 17:04 ssrheart 阅读(20) 评论(0) 推荐(0) 编辑