摘要:
本节概要:如何提取嵌入在HTML格式中的文本信息。 很多网站请求后,返回的数据是嵌套在HTML格式中的。例如:5xclass.cn 对于这种情况想要提取其中的数据,常见有两种方法: 基于bs4模块(本节重点) 基于xpath模块 1.HTML格式 <div> <h1 class="item">武沛齐 阅读全文
摘要:
本节来学爬虫使用requests模块的常见操作。 1.URL参数 无论是在发送GET/POST请求时,网址URL都可能会携带参数,例如:http://www.5xclass.cn?age=19&name=wupeiqi res = requests.get( url="https://www.5xc 阅读全文
摘要:
1. 什么是爬虫? 用代码代替人去模拟浏览器或手机去执行执行某些操作。 例如: 自动登录钉钉,定时打卡 去91自动下载图片/视频 去京东抢茅台 3.分析&模拟 分析一个网址,用requests请求就可以实现。 3.1 请求分析 基于谷歌浏览器去分析。 3.2 模拟请求 基于requests模块发送请 阅读全文
摘要:
1.获取图片 # @课程 : 爬虫逆向实战课 # @讲师 : 武沛齐 # @课件获取: wupeiqi666 import re import time import ddddocr import requests from selenium import webdriver from seleni 阅读全文
摘要:
基于selenium实现过滑块验证核心需要三步: 获取验证码图片 识别图片,计算轨迹距离 寻找滑块,控制滑动 1.获取图片 https://www.geetest.com/adaptive-captcha-demo 示例1: import re import time from selenium i 阅读全文
摘要:
1.selenium自动化 selenium可以操作浏览器,在浏览器页面上实现:点击、输入、滑动 等操作。 不同于selenium自动化,逆向本质是: 分析请求,例如:请求方法、请求参数、加密方式等。 用代码模拟请求去实现同等功能。 逆向 vs 自动化Selenium Selenium,【优】简单不 阅读全文