爬虫 - 随笔分类 - 程序猿小Ma

爬虫—图形验证码获取

摘要：# 获取验证码图片步骤 **1. 使用selenium操作谷歌浏览器，打开目标网站** **2. 对目标网站进行截图，并将图片保存到本地** **3. 获取验证码元素节点在屏幕上的位置，即横纵坐标** **4. 使用Image库读取保存的截图** **5. 使用pillow模块抠出大图中的验证码只阅读全文

posted @ 2023-07-11 21:43 程序猿小Ma 阅读(526) 评论(0) 推荐(0)

使用selenium、xpath、半自动点赞、自动登录

摘要：## selenium等待元素加载 ```python # 程序执行速度很快》获取标签》标签还没加载好》直接去拿会报错 # 显示等待：当你要找一个标签的时候，给它单独加等待时间 # 隐士等待：只要写一行，代码中查找标签，如果标签没加载好，会自动等待 bro.implicitly_wait(10 阅读全文

posted @ 2023-07-11 20:31 程序猿小Ma 阅读(145) 评论(0) 推荐(0)

bs4、selenium的使用

摘要：## 爬取新闻 ```python # 1 爬取网页 requests # 2 解析 xml格式，用了re匹配的 html，bs4，lxml。。。 json： -python ：内置的 -java ： fastjson 》漏洞 -java：谷歌 Gson -go ：内置基于反射，效率不高 ``` 阅读全文

posted @ 2023-07-11 15:03 程序猿小Ma 阅读(88) 评论(0) 推荐(0)

requests高级用法、代理池搭建

摘要：## requests高级用法 ### 1.自动携带cookie的session对象 ```python # session对象》已经模拟登录上了一些网站》单独把cookie 取出来 import requests header = { 'Referer': 'http://www.aa7a.c 阅读全文

posted @ 2023-07-10 22:09 程序猿小Ma 阅读(186) 评论(0) 推荐(0)

requests的基础使用

摘要：## 爬虫介绍 ```python # 爬虫：又称网络蜘蛛，spider，一堆程序，从互联网中抓取数据》数据清洗 >入库 # 爬虫需要掌握的知识 -抓取数据：发送网络请求(http)，获得响应(http响应，响应头，响应体》真正重要的数据在响应体中) -python模块：requests，sel 阅读全文

posted @ 2023-07-10 21:42 程序猿小Ma 阅读(110) 评论(0) 推荐(0)

Loading

程序猿小Ma

随笔分类 - 爬虫

公告