摘要:
Selenium框架 【一】浏览器操作 1)页面操作 1.初始化浏览器对象 # 使用环境变量 from selenium import webdriver browser = webdriver.Chrome() browser = webdriver.Chrome(path) browser.cl 阅读全文
摘要:
【一】xpath 1)介绍 (XML Path Language) 一种小型的查询语言 2)优点 可在XML中查询 支持HTML的查询 通过元素和属性进行导航 # 安装 pip install lxml # 使用 from lxml import etree # 将源码转化为能被XPath匹配的格式 阅读全文
摘要:
BeautifulSoup模块 【一】初识 1)介绍 Beautiful Soup是python的一个库 最主要的功能是从网页抓取数据。 官方文档:https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/ # 安装 pip install Beautifu 阅读全文
摘要:
【一】爬虫初识 1)概念 爬虫是一种自动化获取互联网数据的技术,通过模拟浏览器行为,向目标网站发送请求并获取响应,然后解析响应中的数据 2)工作原理 发送HTTP请求,模拟浏览器行为,获取网站的响应,并解析响应中的数据 3)分类 通用爬虫:对整个互联网进行爬取 定向爬虫:只针对特定的网站进行爬取 基 阅读全文