摘要: 一、 selenium基本使用 # 由于requests不能执行js,有的页面内容,我们在浏览器中可以看到,但是请求下来没有 》selenium模块:模拟操作浏览器,完成人的行为 # selenium最初是一个自动化测试工具,而爬虫中使用它主要是为了解决requests无法直接执行JavaScrip 阅读全文
posted @ 2022-08-02 21:19 马氵寿 阅读(195) 评论(1) 推荐(0) 编辑
摘要: 一、 BeautifulSoup4 介绍 # (1)Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库 # (2)使用requests发请求拿回来的html,就可以使用bs4解析出咱们想要的数据 # (3)BeautifulSoup(要解析的字符串, "解析方式 阅读全文
posted @ 2022-08-02 20:48 马氵寿 阅读(285) 评论(0) 推荐(0) 编辑
摘要: 一、 代理 1使用代理发送requests请求 import requests proxies = { 'http': '112.14.47.6:52024', } # 180.164.66.7 respone=requests.get('https://www.cnblogs.com/',prox 阅读全文
posted @ 2022-08-02 20:40 马氵寿 阅读(179) 评论(0) 推荐(1) 编辑
摘要: 1 爬虫介绍 # 所有的软件,90%以上,cs,bs,主流都是用http协议通信,模拟发送http请求 》服务端把数据返回(html,xml,json) >数据的清洗(re,bs4) >入库(文件,mysql,redis,es,mongo) -mysql:tcp自定定制的协议 -redis:tcp自 阅读全文
posted @ 2022-08-02 17:12 马氵寿 阅读(796) 评论(0) 推荐(0) 编辑