2022 年 8月 2 日随笔档案 - 马氵寿

2022年8月2日

摘要：一、 selenium基本使用 # 由于requests不能执行js，有的页面内容，我们在浏览器中可以看到，但是请求下来没有》selenium模块：模拟操作浏览器，完成人的行为 # selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScrip 阅读全文

posted @ 2022-08-02 21:19 马氵寿阅读(195) 评论(1) 推荐(0) 编辑

爬虫篇：bs4(beautifullsoup)的介绍和使用

摘要：一、 BeautifulSoup4 介绍 # （1）Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库 # （2）使用requests发请求拿回来的html，就可以使用bs4解析出咱们想要的数据 # （3）BeautifulSoup(要解析的字符串, "解析方式阅读全文

posted @ 2022-08-02 20:48 马氵寿阅读(285) 评论(0) 推荐(0) 编辑

爬虫篇：代理池搭建

摘要：一、代理 1使用代理发送requests请求 import requests proxies = { 'http': '112.14.47.6:52024', } # 180.164.66.7 respone=requests.get('https://www.cnblogs.com/',prox 阅读全文

posted @ 2022-08-02 20:40 马氵寿阅读(179) 评论(0) 推荐(1) 编辑

爬虫篇：requests基本使用、代理、超时、认证、异常、上传文件

摘要： 1 爬虫介绍 # 所有的软件，90%以上，cs,bs,主流都是用http协议通信，模拟发送http请求》服务端把数据返回(html,xml,json) >数据的清洗（re，bs4） >入库（文件，mysql，redis，es，mongo） -mysql：tcp自定定制的协议 -redis：tcp自阅读全文

posted @ 2022-08-02 17:12 马氵寿阅读(796) 评论(0) 推荐(0) 编辑

公告