随笔分类 - 爬虫
爬虫...
摘要:Selenium框架 Selenium是一个自动化测试工具,用于模拟用户在Web应用程序上的操作。它提供了多种编程语言的接口,如Python、Java等,使测试人员能够编写自动化测试脚本。Selenium可以模拟用户在不同浏览器上的操作,包括点击、输入文本等,以验证Web应用程序的功能和性能。它还支
阅读全文
摘要:Python爬虫 (1)介绍 Python爬虫是一种自动化获取互联网数据的技术,它通过编写程序实现自动访问网站并抓取所需的数据。 爬虫是一种自动化获取互联网数据的技术,通过模拟浏览器行为,向目标网站发送请求并获取响应,然后解析响应中的数据。 (2)爬虫的常用库 (1)requests 用于发送HTT
阅读全文
摘要:requests模块 (1)GET请求 (1)发送get请求 import requests url = "https://www.baidu.com/" # 发送请求获取响应数据 response = requests.get(url) 其中,一些常用的属性和方法包括: status_code:
阅读全文
摘要:BeatifulSoup (1)介绍 Beautiful Soup是Python库,用于解析HTML和XML文档。它提供简单而强大的工具,帮助用户从网页中提取数据。通过查找元素、遍历文档树和处理编码问题,它简化了数据提取过程。适用于网页抓取、数据挖掘和分析等应用场景。 pip install bea
阅读全文
摘要:xpath (1)介绍 可在XML中查找信息 支持HTML的查找 通过元素和属性进行导航 pip install lxml from lxml import etree # 将源码转化为能被XPath匹配的格式 selector = etree.HTML(源码) # 返回为一列表 res = sel
阅读全文