随笔分类 -  爬虫

摘要:# 获取验证码图片步骤 **1. 使用selenium操作谷歌浏览器,打开目标网站** **2. 对目标网站进行截图,并将图片保存到本地** **3. 获取验证码元素节点在屏幕上的位置,即横纵坐标** **4. 使用Image库读取保存的截图** **5. 使用pillow模块抠出大图中的验证码 只 阅读全文
posted @ 2023-07-11 21:43 程序猿小Ma 阅读(422) 评论(0) 推荐(0) 编辑
摘要:## selenium等待元素加载 ```python # 程序执行速度很快 》获取标签 》标签还没加载好 》直接去拿会报错 # 显示等待:当你要找一个标签的时候,给它单独加等待时间 # 隐士等待:只要写一行,代码中查找标签,如果标签没加载好,会自动等待 bro.implicitly_wait(10 阅读全文
posted @ 2023-07-11 20:31 程序猿小Ma 阅读(89) 评论(0) 推荐(0) 编辑
摘要:## 爬取新闻 ```python # 1 爬取网页 requests # 2 解析 xml格式,用了re匹配的 html,bs4,lxml。。。 json: -python :内置的 -java : fastjson 》漏洞 -java: 谷歌 Gson -go :内置 基于反射,效率不高 ``` 阅读全文
posted @ 2023-07-11 15:03 程序猿小Ma 阅读(52) 评论(0) 推荐(0) 编辑
摘要:## requests高级用法 ### 1.自动携带cookie的session对象 ```python # session对象 》已经模拟登录上了一些网站 》单独把cookie 取出来 import requests header = { 'Referer': 'http://www.aa7a.c 阅读全文
posted @ 2023-07-10 22:09 程序猿小Ma 阅读(63) 评论(0) 推荐(0) 编辑
摘要:## 爬虫介绍 ```python # 爬虫:又称网络蜘蛛,spider,一堆程序,从互联网中抓取数据 》数据清洗 >入库 # 爬虫需要掌握的知识 -抓取数据:发送网络请求(http),获得响应(http响应,响应头,响应体 》真正重要的数据在响应体中) -python模块:requests,sel 阅读全文
posted @ 2023-07-10 21:42 程序猿小Ma 阅读(61) 评论(0) 推荐(0) 编辑

more_horiz
keyboard_arrow_up dark_mode palette
选择主题
点击右上角即可分享
微信分享提示